当代县域经济网

  • 1
  • 2
  • 3
当代县域经济网 /2024年第11期

【调查研究】基于数据中台的数字乡村基础数据资源体系建设

发布:2024/11/07 17:53  作者:王书梦  编辑:邹璠  来源:《当代县域经济》2024年11月  阅读量:

[摘要]  随着大数据技术的发展和数字乡村建设数据量不断增长,对于乡村数据资源的管理和共享成为亟待解决的问题。本文采用数据中台技术对数字乡村数据资源进行分类管理,建立数字乡村数据中台体系架构,并基于此架构探索出数字乡村基础数据资源建设路径,包括统一采集接入、数据集中处理、数据资源存储、数据组织管理、元数据管理。

[关键词]   数字乡村;数据中台;数据资源  

[基金项目]   2021年度山东省社会科学普及应用项目“大数据背景下数字乡村基础数据资源体系构建研究”(编号:2021-SKZZ-18

[作者单位]  山东华宇工学院

  

     依托互联网、大数据、人工智能和实体经济深度融合的现实环境,数字化赋能农民生活改善和农村全面发展。数字乡村建设发展过程中,数据成为农业生产的新要素,信息技术成为农民生产经营的新工具,互联网成为农村全面发展的新载体。数字技术正穿透所有经济和社会场域,作为应用场景,乡村正成为城市之后的必然选择,构成了数字中国的战略要冲。数字乡村建设通过科技创新,将大数据、人工智能、区块链、云计算等数字技术与农业全产业链以及生态保护进行深度融合,推动农业绿色发展,形成高质量且稳定的生态系统,形成良好的人居环境,为新发展格局提供基础保障。


随着大数据技术的不断发展,乡村数据呈爆炸式增长,如何对乡村数据资源进行有效的管理并提供共享服务,是数字乡村建设亟待解决的问题。根据以往的数据集成思路,借助统一的数据平台可以快速响应用户的各种需求,满足多种业务场景的应用。数据中台技术是指运用统一的标准和技术,对海量的异构数据进行采集、加工、存储、管理等一系列数据集成与管理,为各类应用提供数据共享服务。通过数据中台,数字乡村所涉及的各类用户、政府、农民、企业等对内对外建立统一的业务系统和管理平台,减少各种业务系统信息孤岛现象,打通各部门间的数据墙,形成统一的数据规范。

 

数字乡村基础数据资源数据中台架构

 

数据中台设计原则。数据中台的建设要保证来源于不同系统的同类数据具有一致性,要遵循相应的行业数据库设计标准,以及农业农村领域的数据标准和地方标准。数据中台设计时要在充分考虑数据实用性的基础上整合数据资源,要通过不断变化的需求进行数据资源的重组,满足数据实用性原则;要考虑数据的独立性,能够使数据独立于具体应用之外,不随各类系统的变化而改变。同时,数据库的设计要有可扩展性,当新的需求出现时,可以在原有基础上进行扩展,不必完全重新设计数据库。此外,数据中台还应该有数据的安全设计,进行有效的备份和数据恢复,确保发生事故时能够快速恢复,并且要有安全授权设计,避免非法用户的访问。

 

数据中台技术和层次架构。数据结构总体可以分为三种,结构化数据、非结构化数据以及其他半结构化数据。对于结构化数据的存储目前主要用关系型数据库处理;非结构化数据的存储主要在非关系型数据库中,例如文件管理系统,存储一些图片、视频、文档等数据;半结构化数据实质是一种结构化数据的形式,包括一些相关的标记用以区分不同的语义元素。数据中台建设过程中要能够处理这三种类型的数据资源。

 

数据中台建设数据资源采集、数据资源融合、数据资源共享等数据服务体系。在整个体系建设中,将数据管理、数据质量、数据安全、数据标准纳入其中。经过数据中台的不断应用,推进数据的采集接入、分析、挖掘和治理能力的提升,从而完善数据中台服务。总体来看数据中台主要包括数据的统一采集接入平台、数据集中处理平台、数据管理平台、大数据分析与数据挖掘平台、统一管理平台以及数据可视化平台等多个平台。

 

数据中台数据架构。数据中台的数据架构按数据库的处理内容不同分为原始库、资源库、主题库、业务库等。原始库是存储未经处理的原始数据,主要存放和原系统一致的数据;资源库的建设是基于原始库,按资源类型的不同将原始库中的数据规范化处理,形成不同主题的数据;主题库基于原始库和资源库,构建数据的逻辑关系,形成实体关系模型,完成知识图谱的建设等;业务库面向不同业务的场景,建立起相关的数据结构。数据中台同时应建立起索引库和资源目录,对数字乡村数据资源进行整合,对相应的元数据进行管理,比如业务元数据和技术元数据。

 

采用分层分类方法将数字乡村数据指标按照其属性及其数据来源分为农村基础信息数据指标、农业基础信息数据指标、农民基础信息数据指标三大类,在每一大类里,业务关联度高的数据归入同一小类。数据指标采用名称、代码、数据类型、是否为空、注释来描述数字乡村相关数据。

 

数字乡村基础数据资源体系建设路径

 

数据资源统一采集接入。数据资源的采集是数据拥有价值的第一步,同时也决定了数据潜在的意义。目前基于大数据技术的数字乡村数据资源采集方式有以下几种:一是利用农村农业各个业务系统进行信息采集,通过部署各类非关系型数据库负载均衡和分片完成海量数据的采集。二是通过查看各个业务系统的系统日志采集数据,利用在线分析和离线分析方式分析系统日志文件获得数据。三是利用网页数据的爬取技术采集网页、论坛、交易平台等数据信息。四是利用智慧终端各类传感器、监测平台、监控设备等来获取图片、视频等信息。

 

数据集中处理。数据集中处理主要是对数据的提取、清洗、关联、对比、标识、对象化等操作。数字乡村建设涉及的业务领域众多、数据复杂多样,采集获取的数据往往不能直接用于数据分析,所以需要对获取的数据进行数据清洗、数据集成、数据变换、数据规约等数据资源预处理,筛选出与主题相关的数据。数字乡村建设中采集的数据源多来自不同的业务平台,要将相关联的异构数据源合并放入一个一致的数据存储中完成数据的集成。

 

乡村基础数据资源存储。目前,农业农村相关业务平台的后台数据存储多采用结构化关系型数据库软件存储。大数据时代的数据存储方式应该发生转变,为海量多样化数据分析提供支持,而主流的大数据存储是支持海量数据读写,支持上亿行、上百万列的,面向列的分布式非关系型数据库。乡村业务系统中的政务文件、政策规定等非结构化数据可以用大数据平台的分布式文件系统存储;网络舆情、业务日志等半结构化数据可采用列式存储的分布式数据库存储;温度、土壤、湿度自动监测等小时、分钟级数据提供时序数据库实现海量数据存储。

 

数据组织管理。根据中台数据架构进行数据的组织管理,建立原始库、资源库、主题库、知识库、业务库、数据资源目录。原始库可以进行数据的原始加工,抽取数据的关键信息、对数据进行分级分类标签管理,同时提供查询、推送、对比、订阅等服务。资源库是经由原始库中的数据整合和清洗过后形成的,可以提供数据的检索、统计分析、订阅服务等。主题库具有相似特征的不同数据分类进行归集,构建不同实体间知识图谱,能够提供数据分析和统计服务。业务库提供专题类业务分析,构建实体库中的业务相关模型,基于资源库建设而形成。

 

数字乡村元数据管理。为了更有效地完成数据的管理,方便数据的扩展,实现对乡村数据资源的便捷访问,设计使用元数据进行数据管理。元数据是用来描述数据的数据,元数据和数据本身构成了不同层次的数据,对于信息系统而言要能适应元数据结构和数据内容结构。元数据管理可以进行元数据的自动修改,例如当系统应用需求发生改变或扩展时,元数据管理能自动识别变化,从而修改元数据,信息应用系统不需要进行数据的整体修改。

 



关注官网微信