1本体相关理论和方法
1.1概念的描述
对地理对象的概念性描述一般都是基于自然语言文字的,与描述者的知识、经验和背景有很大的关系,导致在概念描述时存在着很大的歧义性。如“高层建筑”在维基百科中被描述为:“具有较多层数高度较高的建筑”,其中“较多”和“较高”两个术语带有很强的主观性,其判别阈值取决于领域背景:中国《民用建筑设计通则》将10层及以上的住宅建筑和高度超过24m是公共建筑称为高层建筑;而《日本建筑大辞典》将5层~6层至14层~15层的建筑定为高层建筑。
1.2语义表达的方法
对地理概念的语义描述就是表达从一个地理概念空间到另一个地理概念空间的映射关系。地理概念空间之间的映射关系的研究也是当前认识语言学领域对语义理论研究的一个热点[21]。地理概念空间的转换或对应主要有比喻法、代数法、概念集成/绑定法和属性枚举法,其中属性枚举法是最容易理解的方法,即将概念的属性一一列举出来。每个概念都与一定的属性或性质关联,这些定义的属性足已确定对象的相关外延[22]。属性枚举法就是基于这点,用地理概念拥有的属性来描述概念。如“高层建筑”可以用“占地面积”,“建筑面积”、“层数”、“高度”等描述其特征。即如何找到概念(“高层建筑”)的本质属性(本体性质)是枚举法的关键。
1.3形式本体和概念化
为减少对地理国情描述的歧义和澄清自然文字描述的语义,需要对地理国情所表达的对象的本质进行分析,明确地理对象的本体语义。为达此目标,形式本体的方法为地理国情的概念化提供了有力理论基础。形式本体指用系统的、形式的和公理的方法对事物存在的形式和方式进行的逻辑开发的方式。本体被描述为用于描述形式词汇意图含义的逻辑理论,即对世界特殊概念化的本体承诺。根据概念化理论,概念化被定义为三元组:C=<D,W,>,其中为定义在域空间(D,W)上的概念关系的集合,域空间(D,W)是一种世界结构,D为域,W为D的最大状态集。概念关系ρ定义为从W到D上所有外延关系的映射(或函数):ρ:W→2D。给定一个语言L和它的词汇V,对概念化C=<D,W,>的本体承诺O为:O=(C,)。其中为映射:V→D∪将D中的元素赋给V中的常量,中的元素赋给V中的谓词符号。
2地理国情本体构建方法
根据创建本体的5个基本准则(清晰性、一致性、可扩展性、最小编码偏差及最小本体承诺),本文基于本体开发工程理论和已有的本体创建方法,结合天津市地理国情监测内容的特征,提出了一种构建天津市地理国情本体的方法。主要包括5个步骤,如图1所示。(1)明确本体的范围和目的:本文所要构建的地理国情本体库包含概念的范围为天津市地理国情中所有的地理概念;本体建立的目的是为天津市地理国情概念建立一套语义描述体系,从而为地理国情信息的共享和语义互操作服务。(2)列举概念:尽可能列举出领域内的所有概念,对每个概念在不同领域中的定义进行资料分析和总结,得到每个概念的定义并集。(3)概念化:采用属性枚举法对每个概念进行语义表达,形成知识框架。(4)形式化表达:用形式化语言将先前得到的天津市地理国情概念模型进行外在表达,本文采用OWLDL语言进行本体的表达和建库。(5)评价验证:根据相应的评价标准对所建立的本体进行验证。本文所述的方法是一个迭代的过程,所创建的地理国情本体在特定阶段是一个相对完善的本体,随着客观世界的变化和地理国情内涵的丰富,还需要反复的评价与修改。
2.1天津市地理国情本体构建的范围和目的天津市地理国情监测项目从城市建设、生态环境、地表变化、土地利用和地质变化5个方面就城镇化进程等45个专题展开了监测工作。本文所构建的本体库的所涉及的地理概念范围与之相对应,详情如表1所示。
2.2天津市地理国情的概念化
天津市地理国情的概念化是指以天津市地理国情所涉及的地理概念为研究对象,分析其所要服务的知识领域,根据相关标准建立概念的语义描述集,确定每个概念语义的描述集和属性集,从中提取出本体属性集,从而实现地理信息的概念化,具体过程如图2所示。
2.3天津市地理国情形式化表达
本体描述语言从自然语言到描述逻辑形式多种多样,语言的形式化和规则性越高就越利于机器理解。对于地理国情本体,支持推理的能力是很重要的,它可以检测概念间是否互相矛盾,以保证本体的质量。网络本体语言OWL(WebOntologyLanguage)是由W3C(国际万维网联盟)发布的共享本体的标记语言,用来描述万维网文档和应用中的类和类之间的关系,并可以通过形式化语义实现逻辑推理。综合考虑地理国情本体所需要的表达力和推理能力后,本文使用OWLDL作为地理国情本体的描述语言。它主要针对概念、性质、个体之间关系的描述,以保证强大的语义表达能力。由OWL描述的一个本体主要包括三种组成元素:类(class),实例(individual)和属性(property)。类代表一些实例的集合,OWL还支持对简单类进行并、交、补运算等集合操作得到的复杂类;实例作为类的成员出现,是领域中实际感兴趣的对象;属性是实例之间的二元关系。在OWL中有两种属性:对象属性和数据属性。
2.4地理国情本体属性库的构建
选择合适的建库工具是快速、成功地构建本体的关键。好的本体编辑软件应该具备本体录入、一致性检查、可视化、查询、推理等功能。protégé软件是目前使用最广泛的本体编辑器之一,它提供了图形化和交互式的本体设计环境,其OWLPlug-in支持OWL描述语言,满足地理国情本体属性库的构建需求。在OWL语言语法中,一个本体属性由类(A)、实例(B)、属性(C)三部分组成,并采用三元组(A→CB)描述三者的关系。使用protégé软件构建地理国情本体属性库的过程也就是对地理国情本体属性的每个组成部分进行构建的过程:类的构建:建立基本本体属性(如“对象”、“成因”、“时间性”、“物质性”、“空间性”、“量度”等)的所有子类及实例,如图3所示。“天然”,而“天然”的实例有“冰川作用”、“风蚀作用”等),如图4所示。属性的构建:对于“功能”、“目的”之类的动词,在protégé中采用属性进行表达,如图5所示。
3结语
地理国情监测工作将是我国测绘地理信息发展的新方向,本文就如何提供地理国情信息服务展开思考和研究,通过分析发现,要实现地理国情信息语义共享的关键是使其语义描述明确且形式化,而本体属性枚举法是一种有效的方法。在此基础上,本文以天津市2011年监测成果及其服务行业为研究对象,提出了一种地理国情本体的建库方法,这种方法可以应用其他地理概念的形式语义分析,得出明确的形式语义,为解决地理信息的语义共享提供有效的理论基础和技术方法。然而,地理国情涉及地理概念极其复杂,如何在地理国情本体属性库的基础上,真正实现所有行业之间的语义关系的推理和定制化地理国情信息的提取,还有待于进一步研究。
作者:张志军 李承鑫 单位:天津市测绘院 测绘遥感信息工程国家重点实验室