1关联数据
1.1关联数据概述
互联网创始人TimBerners-Lee首次提出了关联数据的理念,目的在于在不同资源之间建立计算机可理解的关联信息,最终建立全球性大数据空间[1]。2006年他在《关联数据的设计问题》报告中指出互联网不仅是把数据搬到网上,更是创建这些数据间的链接,以使人和机器能够浏览网络上的数据并可搜索和浏览相关数据和链接。同时他进一步明确提出了关联数据的创建和发布四原则:(1)使用URI(通用统一资源标志符)标识事物;(2)使用HTTPURI(超文本传输协议)使得任何人都可以定位并查找对应资源;(3)当有人访问到标识时,提供与该资源相关的有用信息;(4)尽可能提供关联的URI,帮助人们可以发现更多的事物[1]。这组原则及其实现要求奠定了关联数据技术体系和管理机制。
1.2关联数据核心技术
要实现关联数据的创建和发布,需要运用URI、HTTP以及RDF(资源描述框架)、SPARQL(SimpleProtocolandRDFQueryLanguage)等核心WEB技术。URI解决资源命名和定位问题,HTTP则提供了一种网上链接架构文件的方式。RDF是一种用于表达WEB网络中信息资源的标记语言,将对象描述成为数据模型。RDF以“资源,属性,属性值”三元组形式描述对象的内部结构及其内含的语义(例如一项专利的名称、发明人、技术领域、使用说明等),这个描述的深度取决于对象本身的内容深度和所依据元数据格式的丰富程度。RDFS(词汇描述语言模式)和OWL(网络本体语言)可以更清晰的表示词汇表中术语的意义及其词汇之间的关系,增强数据之间的语义关联性,使其更易被计算机自动发现和理解。关联数据浏览和检索需要采用标准方法对RDF信息进行解析。SPARQL是为RDF开发的一种查询语言和数据获取协议,能够挖掘和检索RDF描述中丰富的结构与关系信息。通过上述基于WEB核心技术的方式能够描述和链接世界上所有的事物,实现不同数据源中的数据之间建立计算机可理解的互联关系[1-2]。
1.3关联数据应用现状
目前很多国家和地区已有大量的关联数据成功应用案例,最早涉及关联数据领域实体应用的是美国国会图书馆,其后纽约时报、BBC等大型媒体公司,谷歌、百思买等商业巨头都纷纷试水关联数据,将大量传统网页上的数据自动或者半自动地转换成关联数据。联合国粮农组织2012年12月提出倡议,把叙词表发布为关联数据,并建设了AGRIS2.0平台将不同来源的数据集以关联数据的方式汇集起来方便关联数据发布和消费,至2014年2月,FAO的关联开放数据云已经包含了65个国家和地区150多个机构,超过七百万的术语,涵盖食物、营养、农业、渔业、林业和环境等领域[3]。国会图书、纽约时报、BBC、联合国粮农组织等大型服务机构进军关联数据领域,无疑会扩大关联数据在世界范围内的影响、推动基于关联数据的应用快速发展。在科技信息资源应用方面,马费成等[4]构建了基于关联数据的网络信息资源集成框架,并设计和实现了以“武汉大学”基本单位的免费网络学术资源集成实验系统。沈志宏等[5]选取中国科学引文数据库和中国生态系统研究网络通量数据为研究对象,根据关联数据的发布技术框架,将其描述为关联数据发布,同时研究了关联数据发布过程中可参考的标准化流程,并详细分析了其中的关键问题。张宁[6]针对农业信息空间下基于关联数据的知识资源组织方式和机制原理,提出了基于关联数据的知识资源发布应用模式和资源服务方式。
1.4关联数据在农业科技信息资源服务中应用优势
与传统的农业科技信息资源数据库相比,基于关联数据的农业科技信息资源更具开放性,比从任何一个现有的数据源中获取的数据更能提供丰富的知识资源。基于关联数据的农业科技信息资源服务将不同的来源数据整合集成,通过资源标准化描述和表达,拓展农业科技信息资源利用深度。这不仅降低服务器的负载,还提高信息质量和服务效率。同时关联数据通过链接机制可以将农业领域不同系统、不同结构、不同数据库的科技信息资源之间建立互链,共享数据和信息,为农业领域知识发现提供帮助,进而提高农业科技信息资源的利用率,优化配置农业科技信息资源。
2基于关联数据的农业科技信息资源服务平台
根据关联数据的概念和内涵,本文构建了基于关联数据的科技信息资源服务架构模型,如图1所示。架构在逻辑上自上而下划分为用户服务层、集成处理层、信息资源层、基础支撑层四个层次。
2.1基础支撑层
农业科技信息资源服务平台需要一个稳定而安全的运行环境,基础支撑层主要包括软硬件设施、网络资源和服务机构、技术支撑和管理机制等,是保障农业科技信息资源服务平台安全稳定运行的基础。其中硬件是指服务器、存储设备、网络传输等设施,软件则是指服务器上的操作系统、数据管理系统、安全保障系统等设施。网络资源是指农业科技信息资源服务相关的机构知识库、WEB站点资源等。技术支撑是指通过数据库技术、语义网技术、信息检索技术、可视化技术等为农业科技信息资源服务提供技术支持。管理机制是指为实现农业科技信息资源服务所配套的思想观念、保障措施和制度安排等。
2.2信息资源层
资源组织者收集的机构内外丰富的农业科技信息资源,包括科学数据、农产品价格信息、政府网站资源、农业科研信息等的各类数据库资源、WEB站点资源、各类文档资源,是农业科技信息资源的实体层,为数据集成处理层提供丰富的数据来源。这些数据资源来源各异,结构不一。因此,采集资源后需要用统一的资源描述框架来描述,将不同类型的数据处理成RDF模式,并存储在服务器中。例如对于传统数据库系统中的关系型数据,可以采用D2RServe将关系型数据库中的原始数据映射成RDF模型,发布成基于RDF数据模型的语义网数据库,对于WEB站点资源等非关系数据型数据则可采用微格式等工具转化成RDF三元组。
2.3集成处理层
集成处理层由数据访问、本体映射、实体识别、知识集成等模块组成[7],对农业科技信息资源关联数据组织加工,将农业科技信息资源内部存在的语义关联关系通过RDF链接连接起来。数据访问即通过统一的规范访问,对关联数据集中数据进行提取解析HT-TPURI,获取RDF模型描述的对象信息。由于不同数据集经常使用不同的本体来描述同一领域信息,造成一定差异问题,需要通过本体映射,将不同的关联数据集的信息资源有效集成融合。本体映射借助关联模型方法,分析数据之间的关联关系,在相关概念之间建立关联。例如,Silk框架方法是根据两个数据集中数据的属性相似度计算它们之间的互联关系[8]。经过本体映射后,相同的概念一定拥有相似的实例,进一步通过实体识别解决具体哪些实例描述的是同一个实体的问题,为每个实例产生一个唯一的标识,从而在不同的数据集中指向同一实体的实例数据之间建立关联,既实现本地异构数据源之间的整合,也与外部其他机构的关联数据集关联,达到基于WEB的知识集成目标。
2.4用户服务层
用户服务层是指将经过挖掘、重组、关联和集成后的农业科技信息资源关联数据提供给用户使用,为用户提供知识管理、信息传递、资源发现等具体服务,促进学术交流和科技创新[9]。农业信息资源服务消费者根据实际需求,通过软件应用服务、用户交互接口、服务平台门户网站等入口就能无缝访问到集成后的各种关联数据,获取SPARQL检索、关联数据浏览、信息资源定位等农业科技信息资源服务,满足对农业科技信息资源搜寻、调用和集成的需要。
3结论
随着农业科技的发展,农业科技信息资源呈现爆炸式增长,越来越多的农业科技工作和农业信息消费者期待更好的农业科技信息资源服务。关联数据由于其本身所具有的开放、易用和可扩展特点,为农业科技信息资源加工整合提供了很好的技术框架。基于关联数据的农业科技信息资源服务平台可以把现有各类农业科技知识库、数据库的资源和外部的数据网络相互链接起来,能够更好的保存、管理和利用科技数据,增强和扩展其资源发现功能,促进学术交流和农业科技创新,为我国农业现代化发展提供助力。
作者:黄冬春 姜昊 张学福 单位:中国农业科学院农业信息研究所 中国农业科学院农业资源与农业区划研究所
相关专题:案外人执行异议答辩状 数学学习网