网络舆情是由于各种事件的刺激而产生的通过互联网传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合[1]。在大数据背景下,网络舆情呈现以下特征:1.信息数据量庞大,2013年我国产生的数据总量超过0.8ZB(相当于8亿TB),两倍于2012年;2.网络信息来源多样,信息内容来源于各门户网站,博客、论坛、微博、微信等;3.信息传播速度快,尤其是微博、微信等的即时性特征,可以将信息同步传播。网络信息呈现出的特征在网络科技日益进步的情况下将会越来越突出。在海量、复杂的数据环境下,要及时有效地发现网民的认知、态度、情感和行为倾向,依靠传统的数据人工获取、人工分析的方法显然是难以应对的。我们需要应用情报分析手段,从繁杂的网络信息中采集热点信息,将信息修剪、清洗、统计,最后获取舆情评估结果,实现网络舆情有效管控。
一、基础数据采集
网络产生巨大的数据量,例如2013年,每天平均产生两百多万TB的数据量而且信息来源多样,这些信息都是获取有效舆情的数据基础,我们首先要尽可能全面地收集到这些信息。网络数据获取可以采用网站提供的API或网络爬虫工具获取。使用API方式是通过网站提供商获取数据信息,为了避免频繁调用对网站服务产生影响,一般调用API次数都会有一定限制,同时网站对于获取数据权限有各种限制,由于种种限制,目前普遍研究和使用的网络爬虫都不使用API。网络爬虫指从一个或多个指定的网页开始,在全网范围搜索获取网络信息资源,通过简单设置目标网站、爬行间隔和存储位置等就能够自动批量获取网页内容,为数据获取提供极大便利。常见的网络爬虫有传统网络爬虫和聚焦网络爬虫。传统网络爬虫获取的数据有一定盲目性,获取的信息很大一部分都不符合要求,造成时间、资源的浪费。而传统网络爬虫的并行机制也带来数据重复抓取、页面质量下降等问题。但传统网络爬虫具有获取数据完整、速度较快的优点。聚焦网络爬虫增加了页面相关度评价和URL价值评价功能进行信息过滤和分析,利用主题相关度评价模型过滤掉与主题无关的网页,利用URL主题相关度控制爬虫爬行过程,不遍历和主题无关页面,提高爬行效率。聚焦网络爬虫数据相关性高,但速度较慢。在舆情采集过程中合理利用网络爬虫,可以在短时间获取大量网络数据,但这些数据存在大量冗余,数据针对性不高,需要后续提取分析。
二、冗余数据清洗
网络舆情分析的主体是与主题相关的数据信息,通过网络爬虫程序获取的是由HTML和各种脚本语言构成的web页面,web页面由与主题相关的网页正文和与主题无关的数据组成,与主题无关的数据也称为网页噪音。由于web页面的形式多样,正文与噪音之间没有明确的界限,而大量存在的网页噪音造成资源浪费,对正文分析也造成很大干扰。我们需要对页面进行处理,剔除网页噪音,比如页面中的广告、导航信息、说明文字等,提取正文、链接、作者、点击量等主题相关信息。通过去噪处理得到的文档一般包含大量重复信息,互联网信息频繁的转发、复制以及不同URL地址指向同一页面等情况都导致信息重复,重复信息成倍增加工作量,去除重复文档也是进行正文提取、分析的必要步骤。我们可以对文档进行向量化处理之后,计算各个特征词的权重,利用相似度算法计算词语与词语之间的相似度,通过计算文档相似度,去除重复信息。当前网页去重算法有很多,但大多数都是基于shingling和LsH的思想,比如对shingle生成策略的改进,对LsH指纹间海明距离计算的改进,以及对这些算法本身参数设置不同而带来性能变的研究等。
三、正文文本提取
通过去噪去重处理,修剪掉网页多余数据,如何快速有效地提取出需要的正文就需要正文提取技术。正文提取技术也是网络舆情发现的一项重要技术。当前常用的网页正文提取算法包括基于DOM树的网页正文提取技术、基于内容规则的网页正文提取技术、基于统计学特征的网页正文提取技术和基于
四、信息分类与关联
网络信息数据多样,来源复杂,数据分布离散。通过文本处理抽取的正文数据往往是相互没有关联的数据,这些文本在使用时就面临无法分析、统计等诸多问题。利用数据挖掘技术可以将文本经过分类、聚类、关联规则发现等一系列处理,从海量数据中发现主题相关的信息,发现其中的模式、规律等,从而为舆情分析与预警提供依据。文本分类指按照预先定义好的类别集合,根据文本内容进行文本自动分类的过程。是一种有监督的机器学习问题。当前的文本分类技术,大多数是基于向量空间模型,用规则的向量来表示不规则的文本数据。文本分类一般分为训练和分类两个阶段,训练阶段需确定类别集合,并在类别集合选取代表性文档计算特征矢量。分类阶段则计算待分类文档特征矢量,通过与各集合特征矢量比较选取相似度最接近的集合。文本聚类在没有类别集合的情况下进行文本分类。主要依据文档相似度,通过计算将相似文档进行归类。不同的聚类算法采取不同的文本向量组织调度策略,以不同的方式进行相似或相异的比较,将大量无序的文本划归为若干类簇,使得不同类簇描述不同事件,得出不同的话题。文本聚类是一种无监督的机器学习问题,不需要预先定义集合,具有一定的灵活性和较高的自动化处理能力。网络获取的数据类型多样,比如对于一个舆情热点事件,我们可能从网页获取事件过程,从论坛、博客等获取关注度和转发量,从公安部门获取人员、关联信息等,这些数据我们需要通过关联规则发现关联关系,将数据整合为相关的数据网。关联规则挖掘过程主要包含两个阶段,第一阶段从获取的复杂数据聚合中找到出现频率高的数据组,第二阶段在这些高频数据组中产生关联规则。有效的关联规则对于舆情分析有重大意义,但目前我国对这一领域的研究应用尚不深入。
五、话题检测与追踪
话题不同于主题、事件等概念,话题是由某一个特定事件和与该事件相关的一系列事件共同构成的。在大量网络信息中,发现某一话题并按照该话题收集与其相关的信息,对信息重新组织,可以有效了解话题的发展与演变。信息的采集、处理、分类、关联等方法将网络中存在的大量无序数据整合为统一的、存在映射关系的数据网,这个过程以网络中已经存在的各类信息为主体进行简单检索和归类。随着网络规模的几何增长,网络信息多样化,网络舆情具有隐蔽性、突发性、自由性等特点。话题发现与跟踪技术的关注点不仅仅在网络已有信息的收集处理上,还要在大量信息基础上,自动分析判断,发现值得关注的深层次的、新的信息并进行追踪,更倾向于新信息的发现,话题跟踪依据与某话题相关的少量事件,判断出后续新闻报道流中与该话题相关的报道,并将相关报道收集起来实现跟踪。通过大规模文档自动聚类建立话题。话题检测与追踪对复杂无序的网络事件进行深入分析,总结事件中的特征规律。当某一网络事件特征符合其中规律时,就可以预测该事件的发展结果,并对于预测可能导致重大后果的事件进行舆情预警。网络监控人员可以根据预警提前对网络事件进行预防疏导,避免产生严重后果。
六、信息定量评估
一般通过数据采集、修剪、提取和分类后可以获得大量舆情信息,并通过跟踪检测手段获取话题发展规律从而对舆情事件采取积极的、有的放矢的应对措施。信息评估不属于舆情信息获取的组成部分,但在具体舆情监控工作中,不同地域、不同行业对于信息的需求不同,如何从用户角度出发,对获取的数据进行评估是非常重要的一个方面。从公安行业需求角度,按照话题热度、行业敏感度等综合评估,对于信息的定量分析与把握是非常必要的。公安行业对于舆情有很多特定的关注点,把握关注点的关键词是重要的评估指标,关键词来源于公安行业多年信息数据积累,有基于行业的文本信息关键词,比如警察、公安局等,基于案件的文本信息关键词,比如偷窃、抢劫等,基于辖区的文本信息关键词,比如兰州、城关区等,基于重大事件的文本信息关键词,比如爆炸、贪腐等。通过对这些关键词的甄别提供舆论倾向性、苗头性的舆情信息以及相关舆情数据,为网络舆情关注点评估提供支持。热点话题是网络流传比较广泛、网民反响较为激烈、产生较大影响的话题,网络热点在新媒体环境下传播的即时性和广泛性大幅增长,我们可以通过对话题访问量、转发数、网页浏览数等评估网络舆情中的热点话题,即时抓住海量网络信息中的重点,找到真正有价值的信息。当前互联网舆情日益复杂,处置要求高、难度大。网民的理性讨论与过激言论叠加在一起,人民群众的正常民意呼吁、反映与敌对分子和别有用心的人蛊惑煽动、恶意炒作交织在一起。在这种形势下,互联网舆情监控引导工作是必要的,研究网络舆情获取与分析技术并及时应用在舆情监控工作中,对于梳理舆情监控的思路,抓住纷繁的监控工作中的重点,将有限的人力物力用到关键的地方,提高工作的针对性和有效性有重要意义。
作者:胡晴云 马鸿 单位:甘肃警察职业学院 渭源县公安局