1文献综述与研究框架
目前,在网页消重领域中,不少研究者基于段落指纹的思想设计消重算法[2-3]。其基本思路是将每篇文本分解为若干部分,为每部分计算一个指纹。若两篇文本拥有一定数量的重叠指纹,则认为这两篇文本是重复的。如Charikar等提出Simhash策略,将文本内容的语义特征映射到相应的比特上,并以这些比特所组成的数值来表示文本内容的指纹[4]。而李纲等根据文本内容特征,结合Simhash算法生成中文文本的语义指纹,并通过语义指纹的海明距离判断文本间的相似度[5]。Manku等也在文献的基础上提出了加速海明距离判断的策略,提升了网页重复性检测的效率[6]。基于特征码策略的算法在网页消重领域也较为常见[7-8]。该类算法在文本中的特定位置提取若干字符串作为该文本的特征码,通过比较两篇文本的特征码之间的重叠程度,来判断两篇文本是否重复。有研究提出特征码长句提取思想[9],并实现了一种网页文本结构去重方法。基于文本主题词比对的策略,也是特征码策略的一种,即通过分析两篇文本的主题词的重叠程度,来判断二者是否重复[10]。还有研究者应用聚类分析的方法进行网页消重,即认为如果网页相似度达到一定的阀值,则可以将此类网页归为同一类别[11]。还有研究通过instance-lev-el层次的约束聚类策略[12],整合了文档的结构属性,以判断网页之间是否重复性。本文拟通过如下几个环节来进行新闻文本之间转载关系的判别:第一,主题内容提取:该环节可以去除网页中的导航、广告、版权等噪声信息,仅保留新闻报道的正文,以供后续环节使用;第二,基于高频词提取的转载关系初筛:通过对比新闻文本之间的高频词,初步筛除与目标新闻明显不存在转载关系的新闻报道;第三,基于核函数相似度的转载关系判别:在初筛的基础上,利用核函数更精确地计算新闻主题内容的相似度,最终确定新闻文本之间的转载关系。将转载关系识别任务划分成初筛和判别两个步骤,主要是考虑到算法需要处理大规模的数据,可以使用时间复杂度较小的初筛步骤,淘汰掉与目标新闻明显不存在转载关系的新闻报道;而对于剩余的记录,则通过时间复杂度较高核函数计算加以精确识别。这样可以在保证判别精度的前提下减少计算量,加快处理速度。目标新闻在转载过程中可能出现内容的变动。为了保证算法可以克服内容变动对转载关系判别的影响,本文使用核函数完成文本间相似度计算。核函数对于转载文本之间的内容的轻微变动等情况有着较强的容忍能力,可以满足实际应用的需要。
2算法流程分析
2.1基于统计观点的网页主题内容提取
本文采用基于统计观点的算法提取新闻网页的主题内容。其基本思路是以非结构化数据的观点看待Web页面,将Web页面视为由纯文本和HTML标签这两类元素所构成的集合。通过对这两类元素的分布规律进行统计,依据统计结果来确定正文内容在Web页面中所在的区域。基于先前的观察,Web页面中与主题内容无关的块往往含有大量无关链接和极少非链接文字。因此,可以对页面中各个块进行“纯文本”和“超链接”数量的统计,依据统计结果来提取主题内容块[13]。下面具体介绍提取策略。首先对Web页面进行规整,以保证生成的DOM树的完整性。继而访问DOM树中的结点并获取统计信息,包括块中的非链接中文文字总数ContentLength和超链接总数LinkNum。其中,非链接中文文字是指不表现为链接形式的中文文字。之后对每个内容块进行主题相关度的判断。从DOM树中裁去与主题不相关的块,而保留与主题相关的块,最终在DOM树中得到所有与主题内容相关的信息。
2.2基于高频词提取的转载关系初筛
在转载关系初筛环节中,需要对比新闻之间的高频词。由于在转载过程中,文章的高频词信息不会出现明显变动,通过对比高频词识别转载关系,可以保证结果具有较高的召回率;但是对于部分文本,由于高频词非常相似,常常会引起误判,故而该方法的正确率较低[9-10]。李晓明等人对该策略进行过详细介绍[14]。本文通过提取新闻的高频词完成转载关系的初筛。该步骤计算量较小,可以快速筛除与目标新闻明显不存在转载关系的新闻报道。继而在后续的核函数计算环节进一步判定转载关系,以得到较高的判别准确度。
3实验
本文的实验数据来自于华中科技大学下一代互联网国家工程实验室提供的网络舆情分析平台,其监控的数据源涵盖国内主流新闻站点。以该系统从2014年7月至2014年9月的新闻数据中的子集,共计新闻网页2953篇,为实验部分所用的数据集合DataSet1;在DataSet1基础上,加入该系统从2014年6月的新闻数据中的子集,共计新闻网页5912篇(相互间不存在转载关系),以构成数据集合DataSet2。在DataSet2中共有新闻网页8865篇,且保证存在转载关系的网页仍为1824篇。本文基于以上两个数据集合进行下面的一系列实验。
4结论
本文在现有研究基础上,提出一种适用于网络舆情分析领域的新闻转载判别方法,并基于真实案例数据对转载判别效果进行了检验。以此为基础,可以有效地确定目标事件在互联网上的分布状况和传播范围,以确定目标事件互联网上的传播轨迹和影响程度,进而可以分析舆情参与者的情感观点等网络舆情信息。基于本文构建的网页转载关系判别模型,可以从以下角度对目标事件舆情的传播态势进行分析:a.目标事件热度评估。许多研究者都尝试利用总发文数、单位时间发文数、参与讨论总人数、单位时间参与讨论人数等指标,评估目标事件舆情的热度[17]。但针对某一特定事件,其相关报道可能分布在多个不同数据源,同时又会被诸多网站转载;而每个网站上的报道又引发大量的网民讨论。基于对新闻网页转载之间的转载关系进行判别,可以获取目标事件相关信息在互联网上的分布状况,进而更为全面地完成对目标事件的总发文数和参与讨论人数等指标的统计。b.目标事件新闻转发数量的走势变化。基于网页转载关系判别,可以确定目标事件信息的转发数量随时间变化的状况。如图3所示,通过转发数量的走势变化,一方面有助于判定目标事件的热度,另一方面可以对目标事件的发展趋势进行研判。c.互联网中信息源影响力评估。通过判别目标事件信息的转载关系,并结合不同信息的发布时间,可以确定目标事件信息的始发网站,并以此推断互联网中不同网站在信息发布实时性方面的影响力;而通过对同一新闻内容在不同网站中得到的网民点击、评论等数量,可以直观地比较不同网站中网民的活跃度,以此推断不同网站在舆情传播方面的影响力。d.更全面的网民观点分析。目前已经有一些研究针对目标事件的各种评论,对其内容进行语义分析,以获取舆情参与者对目标事件所持的观点态度和情感倾向[18]。但现有研究大多数对于特定网站的指定新闻内容进行分析,而对于相同信息在其他网站所得到的网民反馈则未加以考察。利用本文研究内容,可以确定目标事件信息在全网内的分布,进而更全面掌握网民对目标事件的观点和态度。
作者:王君泽 曾润喜 杜洪涛 单位:华中科技大学非传统安全研究中心 华中科技大学公共管理学院