1创建抽取模式
抽取模式用于识别互联网文本中描述道路交通事件的特征词汇,并将这些词汇填充至对应的道路交通信息属性。抽取模式EP定义为:EP={e1,e2,…,e}3,…,e4,ei={pos}i,typei。其中,e为EP的n个序列项,pos为道路交通特征词词性,type为信息属性。提取各序列项的posi可组成特征词词性序列,用于识别文本中的道路交通特征词汇。特征词词性序列反映出文本表达的句法结构,因而能够通过特征词词性序列的调整,将交通事件描述的语言特征引入特征词识别过程,从而减少无关词干扰,提高识别准确性。typei声明posi对应特征词汇在道路交通信息中的属性。本文首先结合文献[12]所述基于LRM的道路位置表达特点,制订定位信息抽取模式(表3);然后,根据道路交通信息描述的句式特点,在定位信息抽取模式基础上自动填充事件信息抽取模式,得到用于文本蕴含道路交通信息抽取的模式库。使用的填充方法包括:(1)在定位信息抽取模式的道路名称词后添加附属定位词;(2)在(1)中抽取模式之前或之后添加一般词;(3)在(2)中抽取模式之前或之后添加事件类型词;(4)在(3)中抽取模式之前或之后添加事件状态词。利用该方法依次对表3中的定位信息抽取模式进行自动填充,最终得到2700条抽取模式。
2互联网文本预处理
首先,对输入的互联网文本进行中文分词和词性标注,结合道路交通特征词库识别文本中出现的道路交通特征词;其次,检查文本是否同时满足至少含有一个道路名称词和一个事件类型词或事件形态词,以判断文本有效性,若为无效文本则不做抽取处理;然后,由识别出的道路交通特征词生成特征词词性序列,其中,将多个连续的一般词合并标记为1个一般词;最后,根据输入文本的断句对词性序列分割,获得与输入文本各句子对应的特征词词性序列集合。
3模式匹配
比较输入文本的特征词词性序列集合中各词性序列与模式库中各抽取模式的特征词词性序列的相似程度,选择相似度最大的特征词词性序列所对应的抽取模式,作为该输入文本词性序列的匹配抽取模式。因此,模式匹配过程转化为序列相似度计算过程,由于文本的特征词词性序列与抽取模式的特征词词性序列长度往往不同,故采用动态时间弯曲(DynamicTimeWarping,DTW)距离度量2个特征词词性序列间的相似度。DTW最早应用于语音数据处理,后被引入时间序列研究中[18-19]。断句所得特征词词性序列集合中的词性序列普遍较短,易出现最大相似度对应多个抽取模式的情况,需从这些抽取模式候选集中进一步筛选出唯一的匹配抽取模式:(1)比较输入特征词词性序列与候选集中各特征词词性序列的道路名称、方向描述、事件类型和事件形容词的个数,过滤掉对应词性个数大于输入序列的抽取模式。(2)优先选择序列项数量与输入序列相同的抽取模式;其次,选择序列项数量大于输入序列的候选抽取模式,且数量最少;最后,选择序列项数量小于输入序列的抽取模式,且数量最多。(3)若候选集合中仍有一个以上的抽取模式,则取第一个作为匹配抽取模式。如果输入文本蕴含多条道路交通信息,则每条信息对应的描述文本可生成一个特征词词性序列。若每个词性序列均能得到唯一的匹配抽取模式,则模式匹配结果为输入文本的匹配抽取模式集合。
4信息属性抽取
由于互联网文本描述存在内容省略现象,需要对提取的部分交通信息属性进行填补。同时,借助抽取模式只是获取了道路交通事件的位置、方向和事件类型等,还需要从输入文本中抽取出交通事件对应的发生时间和持续时长信息。(1)缺失信息填补交通信息位置描述常采用“[所在道路][定位起点/起始方向]、[介词]、[定位终点/终止方向]”形式,如“南北高架路鲁班立交至永兴路”。若文本中连续交通事件描述所在道路相同,则需要对后续信息进行道路名称填补。首先正向遍历道路交通信息集合{I1,I2,…,In},若道路交通信息Ii缺少道路名称,且Ii匹配抽取模式EPi中各序列项的信息属性组成的序列TYPEi={type1,type2,…,typei,…,typen}整体上符合序列结构“定位信息”或“定位信息事件信息”,则读取前一条交通信息Ii-1及TYPEi-1;若TYPEi-1整体上符合序列结构“事件信息定位信息”,且Ii-1含有所在道路名称,则将Ii-1的道路名称赋予Ii。文本对同一类型交通事件不同位置的列举描述也经常出现省略,如“封道养护路段有[位置1],[位置2],……,[位置n]”,“[位置1],[位置2],……,[位置n]等较为拥堵”。缺失的事件信息可利用前后信息相关属性填补。首先,正向遍历道路交通信息集合{I1,I2,…,In},若道路交通信息Ii缺少事件信息,则读取前一条交通信息Ii-1及TYPEi-1。若TYPEi-1整体上符合序列结构“事件信息定位信息”或“定位信息”,且Ii-1含有事件信息,将Ii-1的事件信息赋予Ii。然后,逆向遍历道路交通信息集合,若道路交通信息Ii缺少事件信息,则读取后一条交通信息Ii+1及TYPEi+1。若TYPEi+1整体上符合序列结构“定位信息事件信息”或“定位信息”,且Ii+1含有事件信息,则将Ii+1的事件信息赋予Ii。(2)时效信息抽取对道路交通信息时间信息的抽取采用正则表达式匹配的方法。根据互联网文本中对时间的不同表达形式,如“2013-7-179:15”、“7月17日晚24:00至次日5:00”、“2013年07月23日09时10分”等,建立正则表达式集合。通过正则表达式匹配从输入文本识别出交通事件起始终止时间,并利用文本元数据填补可能缺失的时间要素。对文本中缺少终止时间描述的交通信息,根据事件类型设置离散或连续的效应衰减函数,表达交通信息的时效性。
5实验结果与分析
实验使用的互联网文本来自官方网站和微博客平台。官方网站包括上海交通出行网的“城市快速路”、“干线公路”和“地面道路”版块,以及上海市路政局网站的“高架封路信息”版块,采用网络爬虫方式采集。微博客来源于新浪微博平台,通过API调用方式获取。本文从2013年7月15日至2013年9月6日的采集文本中分别随机抽取2000条文本作为实验数据,其中,官方网站文本包含2034条道路交通信息,新浪微博文本包含2595条道路交通信息。实验程序采用Java语言实现,其中分词处理使用了ik-analyzer2012u6和ansj开源分词工具。前者是基于词典的分词方法,用于从输入文本中严格切分出道路名称词;后者基于Google语义模型和条件随机场模型,通过统计分词方法提高输入文本中除道路名称外其他词汇的切分精度。程序测试运行环境为Windows7操作系统,处理器为2核Intel(R)Core(TM)i5-24003.10GHz,内存为4G。图2为实验使用的官方网站发布交通信息短文本及抽取结果示例,图3为新浪微博发布消息文本及抽取结果示例。
6结论
本文提出一种互联网文本蕴含道路交通信息抽取的模式匹配方法,将道路交通事件描述的语言特征引入抽取模式构建和信息抽取过程中,利用信息描述的句法结构及规律识别互联网文本中基于LRM的定位信息,以及处理信息描述的属性省略现象。通过真实获取的互联网文本的实验,结果表明本文方法能有效抽取互联网文本蕴含的道路交通信息,具有可行性。后续工作中将引入机器学习方法,实现对未登录特征词和抽取模式的自学习过程,提高对含有未登录特征词或不规范LRM位置描述文本的信息抽取效果。此外,利用本文所提出的方法,可在所抽取的大量道路交通信息基础上,实现标注语料集合的自动构建,并不断丰富,解决目前由于缺乏道路交通领域语料库资源,使得机器学习无法依赖大量标注语料训练模型参数的难题,减少将自动训练方法引入互联网文本蕴含道路交绿色农业论文通信息抽取的条件限制。
作者:仇培元 张恒才 陆锋 单位:中国科学院地理科学与资源研究所 资源与环境信息系统国家重点实验室 中国科学院大学