[摘要]对油气资源数据集成管理是油气资源科技信息化管理的前提基础,同时也是“数字国土”的重要组成部分。油气资源战略调查评价、规划、管理、保护和合理利用等各个环节中都涉及海量数据资料的采集、处理、管理与决策,需要利用现代信息技术辅助各环节工作的实施。而开发油气资源大数据管理系统实现了对油气资源信息采集、传输、存储处理和服务的数字化、网络化、可视化和智能化。
[关键词]油气资源;数据管理中心;系统
引言
目前油气资源数据生产分散、来源多样、类型复杂,数据标准、模型、格式、精度等差异甚大。从空间特性看,包含空间数据和非空间数据,而空间数据又包含ArcInfo、MapGIS、MapEngine等;从存储方式看,包含数据库数据和文件数据;从数据关系看,包括结构化数据和非结构化数据[1];从数据管理平台看,包含SQLServer、数据库管理系统、Access等。随着用户需求的不断提升,实现用户对海量油气信息产品资料的筛选以及共享服务的数字化、网络化、可视化、智能化将成为油气信息产品共享服务的一个全新挑战。油气资源大数据支撑及应用平台系统开发是通过对数据清理、校验以及转换,建立规范的油气资源大数据支撑环境,从而实现对结构化与非结构化数据的一体化处理和统一管理。通过开发数据的获取、数据清洗抽取、数据整合聚类、数据分析建模等模块,可以初步搭建油气资源大数据综合应用分析原型系统。用现代化的计算机技术和分析方法来改进人工判别和分析的手段,高效快速地获取各种直观可用的分析结果和数据。
1油气资源大数据支撑及应用平台建设研究
大数据支撑及应用平台建设研究包括了对油气资源战略研究中心的业务需求研究、油气资源的价值研究和面向不同专业领域的业务内容研究。通过分析油气中心的工作方法、工作过程和工作需求,来确定油气资源大数据支撑及应用平台建设的内容。1.1平台建设的服务内容根据前期的调研和交流,本平台的建设主要服务于三个层面:数据统计处理层面、数据分析加工层面、推理决策层面。1.1.1数据统计处理国内外石油领域的大数据系统应用大致可分为两种服务,即对石油公司的石油勘探和生产过程进行监督和指导[2]。但是都是实时的业务数据处理,还需要采用流式方法对实际的生产数据快速加工分析,并将非结构化的数据转换成为可分析的数据,结合地质数据、历史数据和地理数据,得出有价值的结论和结果。1.1.2数据分析加工本系统的建设中,数据分析加工的实现是建立在业务需求的基础上的,在业务分析的基础上,将不同的数据通过业务模型进行不同的抽取、加工、归类并集成,并分批次进行算法迭代,来支撑业务模型的推演和分析需要,其数据本身是源于数据仓库,但扩展和处理后,数据的类型和精细程度都进行了不同层级的划分,拓展了数据的应用,这个层面的分析加工不仅加速了数据的处理,更有针对性地进行了业务模型的分析需要。1.1.3推理决策支撑推理分析是大数据平台的一个重要应用,也是最初数据挖掘、机器学习和深度学习的重要应用领域,在油气中心的业务内容中,有很多不同程度推理决策的需求存在,如根据实际油气田勘探情况来判断开发区块的选择、油气田钻井位置的预测、油气储备量计算与预测等等[3]。1.2平台建设的标准化整个平台建设的标准化工作非常重要,由于数据的存储、格式、计算方法等内容都是以分布式方式实现,因此标准化的接口和服务方法更加关键。1.2.1数据服务的标准化标准化的REST服务接口作为本系统建设的重要标准,所有的数据提供最终都以REST服务的方式来提供,并明确给出其返回的数据的参考实例,所有异常数据的处理和判别都是在数据获取的过程内部完成,并将异常情况以编码方式返回[4]。1.2.2业务分析过程的标准化数据的分析过程和上述数据服务一样,也是REST服务方式来提供,并提供对应的参数输入,用户只需调用相对应的接口,指定对应的数据输入,定义好返回的数据类型等内容,就可以得到规范的业务分析结果,对于有异常和错误的业务,错误码也会返回。1.2.3成果展示的标准化系统将提供标准的可视化展示样式,包括颜色,图例等内容,用户在调用接口时,可以制定以哪种样式进行输出,可以使文本统计,也可以是图表内容,这些标准化的结果对于分析和操作过程提供极大便利。
2油气资源大数据综合应用分析原型系统开发
2.1原型架构设计如图1所示,本原型系统的建设将基于目前数据仓库的建设成果,将业务专题模型所需的结构化和非结构化数据从数据仓库中进行抽取、转换和加工,在数据的处理过程中,通过中间的存储层来实现对业务模型内数据进行存储和处理,并建立不同的数据索引和对应关系[5]。在计算时也需要用到内存数据库的支撑,来减少数据的吞吐,加速数据的分析和处理过程。在业务分析和模型推演时,本平台将采用Spark来作为本原型系统的计算框架,通过快速计算能力、内存存储能力和流式计算能力等优势实现大数据管理和应用原型系统的建设。2.2功能设计油气资源大数据综合应用分析原型系统所设计的功能包括数据的ETL功能、专题业务分析功能和数据的可视化交互功能。2.2.1数据的ETL处理完成对已有数据的ETL处理,对价格趋势分析的处理,从核心媒体中获得与油气生产相关的数据内容及严重程度[6],对实际媒体数据的数据获取和信息提取需要设计的工具有重要媒体数据源管理工具、重要词设计与录入工具和数据获取及质量评估工具。2.2.2专题业务分析功能专题业务分析功能即实现实际的专题分析功能,对于价格趋势分析和油气田生命周期分析,都是一个交互完成的功能,用户通过操作数据模型的各个数据重要程度和阈值,以图和可视化的交互式操作为主的。2.2.3可视化交互功能本系统的可视化交互设计是在数据统计展示的基础上进行更进一步的操作,主要是为了用户能够根据自己的业务背景和分析侧重点,通过勾选不同的数据要素,设定不同的数据阈值,得出不同维度的分析结论。通过对复杂逻辑的处理进行了快速的分析,因此这个设计要以人性和便捷使用为主要目标。
3结论
整个平台建立在数据仓库建设的基础之上,通过本平台的建设研究,也为数据仓库的建设,尤其是对油气资源数据的种类、来源、频度、使用情况等进行更加准确有效的应用参考。本平台的建设也是油气资源数据仓库数据类型扩展和信息丰富的前提。因此无论是现阶段的大数据平台建设还是未来的大数据平台建设,数据仓库的完善和补充都是持续的过程。
主要参考文献
[1]国家质量监督检验检疫总局,国家标准化管理委员会.GB21139-2007基础地理信息标准数据基本规定[S].2007.
[2]中国地质调查局.DD2006-06数字地质图空间数据库标准[S].2006.
[3]王永志,谭永杰.基于GIS和SOA的我国、煤炭、铁矿和钾盐资源潜力数据库建设[J].国土资源信息化,2010(6):23-28.
[4]盛秀杰,梅廉夫.油气勘探和开发领域中间件的设计及实现[J].石油地球物理勘探,2010,45(4):602-605.
[5]王永志,何文娜.基于ArcGIS和SOA的国家级油气资源数据库管理系统设计与实现[J].吉林大学学报:地球科学版,2009,39(5):953-958.
[6]潘继平,李志.资源与目标一体化评价技术及其勘探意义[J].中国石油勘探,2007,12(1):76-80.
作者:王晶晶 施冬 王文惠 单位:长江大学