1地名地址分类及标准化
我国于2010年推出的《数字城市地理信息公共平台地名/地址编码规则》,为地名地址数据的标准化和共享提供了系统、科学的体系[1-3]。依据规范,地名数据可分为3种形式:地名、地址和POI(pointofinterest,兴趣点)[4]。地名是人们对各个地理实体赋予的专有名称,属于面状空间形态,空间指代性较模糊;地址是对地理实体位置的具体结构化描述,属于点状空间形态,空间指代性较具体;POI是人们对感兴趣点位的信息描述,一般为地名或地址+实体名称的形式。根据宁海县的实际情况进行补充和完善,本系统将地址要素分为9大类15小类,如表1所示。
2系统设计及实现
2.1系统总体设计
区别于传统的地名地址管理系统,本系统是一个融合测绘、规划、民政、公安、工商等部门资源,包括地理信息技术和分布式数据库技术的综合性工程,涉及地名地址、空间数据、GIS、网络分布式信息处理系统和大型数据库等复杂要素。系统设计在满足计算机软件工程的基本要求和原则外,还需要实现以下目标:1)地名地址分类标准化。2)民政、公安、工商、测绘等部门地名地址资源的整合。3)系统应结合目前主流的二维和三维开发平台,实现地名地址要素与二维地理实体(房屋面)、三维地理实体(建筑模型)的一体化。4)系统应保证各类数据成果的安全高效存储和管理,并方便地名地址数据的入库、查询、分析统计。按照上述要求,为充分发挥GIS的服务功能,系统采用C/S模式进行开发。二维基础地理平台使用组件式GIS软件——ArcGISEngine,ArcGISEngine封装了大部分ArcGIS底层功能模块和方法,具备强大的地理分析应用功能[5]。三维基础地理平台使用目前与ArcGIS结合最好的Skyline公司的TerraExplorer软件,TerraExplorer能够实现三维影像的交互式体验,并实现对ArcGIS数据格式的良好支持。系统按照架构分为硬件基础层、数据层、应用层和交互层,如图1所示。
2.2系统功能设计
地名地址管理系统集地名地址、二维系统和三维系统为一体,系统主要分为地名地址数据入库与编辑、POI数据入库与编辑、数据分析和系统管理4大组成部分。地名地址/POI数据入库与编辑功能主要包括要素的新建、编辑、查询和批量入库,要素与三维建筑模型数据的关联等;数据分析主要包括图面和属性查询、数据审核、数据导出和书签管理功能;系统管理主要包括用户管理和角色管理,用以实现不同人员的系统操作权限,从而保障系统的安全性,明确各部分的责任人。系统的功能结构如图2所示。
2.3数据管理发布
地名地址管理系统的数据种类多样,主要包括二维影像地图集、二维基础地理底图、三维地形文件、建筑模型、地名地址数据、POI数据等。按照数据的结构,可分为文件系统和数据库系统。文件系统主要存储二、三维基础地理要素。二维影像地图和基础地理底图采用瓦片切图的形式,利用ArcGISServer发布。三维地形文件由航摄影像和DEM叠合而成,通过TerraGate发布;三维矢量建筑模型和三维场景文件由IIS发布。数据库系统采用ArcSDEforSQLServer数据库,实现了关系数据库和空间数据库的一体化管理,主要存储地名地址数据、POI数据、模型点位数据、用户数据等。
3系统关键技术
3.1基于条件随机场的地名地址要素识别
地名地址数据管理中,如何整合已有的大量不同数据源和数据格式的地名地址数据是有待解决的一个重要问题。本系统通过地名地址分类标准化体系,实现了基于条件随机场的地名地址要素识别。条件随机场是由Lafferty在研究序列化数据标注的过程中提出的,它是对最大熵模型的改进,具备最大熵模型的一切优点,是近年来应用在自然语言处理和图像处理等研究领域的一种新的数学模型工具[6]。条件随机场模型建立的关键是参数估计和特征选取。参数估计是从训练数据中训练模型,求解每一个特征的权重参数,即权重向量λ={λ1,λ2,…,λn}的过程;特征的选取是筛选出具有表征意义的特征,关键在于根据具体任务抽象出合适的特征模板集。本系统中,为了能够应用基于字的标注方法来识别中文地名要素,使用4词位标注集来表示地址要素类别。根据中文地名的平均词长特征和于江德的语料测试,下文对识别性能的贡献比上文的贡献要高出6个百分点以上[7],系统选择非对称的地名要素上下文窗口,上文的宽度为3,下文的宽度为5,如图3所示。基于中文字符特性,在选取特征时主要考虑单个字符的信息,从而抽象出3类特征:原子特征、复合特征和词位转移特征。经实验,在20万条训练语料规模下,基于条件随机场的地名地址要素识别对各项分类字段的成功率达到84.39%以上,大大提高了地名地址分类的准确性,降低了人工成本。
3.2数据入库
地名地址管理系统的核心是数据的入库管理,按照数据的来源,可分为新建数据入库和已有数据入库两种方式。1)新建数据入库。新建数据入库是指在系统内通过新增地名地址/POI要素入库的方法。按照系统设计原则,新建数据须严格执行规范要求,依次进行位置信息匹配、完整性检查、重复性检查、邻接关系检查和管理员审核,审核通过后才能入库。2)批量数据入库。批量数据入库与新建数据入库流程相同,首先执行数据的完整性检查,然后进行数据的各项拓扑关系检查,最后由管理人员审核入库。
3.3二三维联动
二三维联动不仅包括二维与三维视图显示区域相一致,还表现在两个场景属性数据、分析结果的一致性[8]。二维和三维显示区域联动是基于两者统一的坐标系实现的。三维联动二维可通过TerraExplorer的ScreenToTerrain方法获取中心点坐标和四至,再由ArcGISEngine的Extent属性实现三维到二维的联动。二维联动三维较复杂,可通过建立二维比例尺和三维视点高度的转换系数,再利用二分法实现坐标转换。三维地名地址/POI图层采用流方式加载,与二维图层采用同一套数据,确保了二三维属性数据的一致性。同时,系统在查询和分析等操作时也要保证显示效果的一致性。系统的三维界面如图4所示。
4结语
本系统实现了地名地址要素信息的标准化入库,从而减少数据后期的处理难度。同时,系统结合基于条件随机场的地名地址要素识别,解决了原始地名数据的融合难题;并通过地名地址要素和二、三维建筑成果的关联,实现了地名地址数据与二三维数据的一体化。系统的成功建设和运行可为地名地址数据的标准化共享提供重要的基础和保障。
作者:丁小陆 黄炳耀 鲍晓娣 单位:宁海县规划局 宁海县规划设计院