1研究现状
舆情监测工作由来已久,最早的网络舆情监测手段也是基于传统的手工模式。通过雇佣大量工作人员对指定的监测页面进行监测,使用人工方式,对某些重点监测词汇进行频率统计来寻找舆情动向。然而随着互联网的蓬勃发展,传统的方式已经落伍,要对网络舆情进行监测,就必然要依托于一个功能强大的互联网舆情监测系统进行。伴随着网络的发展,国内外已有一系列的网络舆情监测系统正式投入使用,这些系统通常是依托于政府部门、学术机构以及企业媒体建设的,分别基于不同的需求(行政决策的、学术研究的、商业开发的),从不同的角度对网络舆情进行监测。最早的相关研究始于TDT(TopicDetectionandTracking)项目[2],它是美国国防高级研究计划局主导的,旨在从新闻网页中找到未知话题并对话题进行追踪。该项目历经多年发展演变,其核心研究内容分为报道切分、话题追踪、话题监测、首次话题报告以及关联监测这5个方面的内容[3]。在我国,由于中西文在文本挖掘、分词方面的巨大差异,以及社会经济等方面的差异,基于汉语的网络舆情监测研究起步较晚[4]。目前,学院型的舆情研究机构主要有北京大学中国国情研究中心、中国人民大学舆论研究所、上海交通大学舆情研究实验室等[5]。
2网络舆情监测系统框架
从过程上看,网络舆情监测的本质是从网络上获取数据、分析数据以及按用户需求呈现分析结果的过程,因此在系统实现时,从数据流向的角度,可以把一个网络舆情监测系统划分为数据获取模块、数据预处理模块、数据分析模块以及结果呈现模块,整个系统的结构如图1所示。
2.1数据获取模块
数据获取模块的主要功能是全天候的、自动的从整个网络上,或者某些特定网络上获取进行舆情分析的原始数据。在自动获取数据的过程中,有两方面的要求。一方面,是获取的相关舆情数据相对于整个数据的覆盖率的要求,即要尽可能地获取尽量全面的原始数据;另一方面,则是对数据准确率的要求,即所需数据要尽可能贴近用户关心的舆情热点。只有在覆盖率和准确率全部达标的情况下,才能更好地对网络舆情进行分析预测。目前,常见的数据获取方式有两种:(1)网络爬虫方式。互联网的一项基本协议是HTML协议,基于该协议,网络中大量资源以统一资源定位符(URL)相互联系,构成一个有机整体。网络爬虫从一个预先定义好的URL列表开始,依次访问该列表上的所有页面进行数据抓取,并分析当前访问页面中的其他URL,选择符合要求的URL加入待访问队列,试图以深度或者广度的方式对限定范围的网络进行遍历式的访问,以获取该网络的所有信息。(2)元搜索采集技术。搜索引擎是大多数网民访问网络的入口,目前有众多的搜索引擎服务提供商,其检索过程有不同的侧重方向,检索结果也各不相同。可以在若干不同的搜索引擎上部署元搜索引擎,通过对下层引擎的调用返回多个搜索结果,并基于一定的算法对不同结果进行选择。使用该方法能够有效地提高数据获取的覆盖率和准确率,且系统构建较为简单。
2.2数据预处理模块
Web页面的数据有其自身特点,它是一种半结构化的数据,整个数据包括内容和描述两个部分,且两者混杂在一起。直接通过数据获取模块抓取的页面内容复杂,存在大量噪音,文本内容非结构化,无法直接进行下一步的分析工作,对这些原始页面必须进行一次数据预处理。预处理的过程大体上分为两步:(1)进行网页内容提取。将用户关心的内容(例如新闻的内容、对主题的讨论等)从噪音(如页面上的广告、导航以及其他超链接)中找出。将页面转化为一个HTML标签树,根据已有知识建立提取规则,最后依据规则对页面内容进行提取。如何建立一个合适的规则是提取工作的核心,可以针对某类特定的网站建立专属规则,也可以针对一般页面的结构特点建立一些通用规则。(2)进行中文文本分词。自然语言中,词是最小的独立活动的语言成分。要对页面提取获得的非结构化连续文本进行处理,首要的工作就是对其进行分词。分词是将输入的一段文本分解为符合逻辑的一组单词的过程,例如输入“羽毛球拍”时,依照某种分词算法就可以初步将其分解为羽毛、羽毛球、球拍3个单词。最简单的分词算法以词典为基础,通过对字符串匹配完成初步工作,之后辅以少量词法、语法和语义规则;另一种思路是基于统计进行分词,统计文本中相邻字同时出现的频率,频率越高就越可能构成一个词;还有一些基于规则的分词算法,通过模拟人对句子的理解过程,对当前句子的语法、句法、词法进行分析推理,能够自动补全未登录词条。
2.3数据分析模块
数据分析模块是整个网络舆情监测系统的智能核心,在本质上是一个数据挖掘的过程。它负责将前期获得的网页内容进行深度挖掘,发现新的舆情热点,并对原有的舆情趋势进行分析。一个典型的系统应具备以下几方面的功能:(1)主题聚类。聚类可以很直观地从海量数据中发现新的主题。将处理过后的网页内容归一化到某个特征空间中,在这个特征空间中以某种方式,将特征接近的页面内容划分为不同的类别,相应类别的聚类中心就可以认为是新的主题。(2)热点发现。在当今网络时代,每天产生的舆情主题众多,其中有些主题能够迅速成为当下的舆情热点,舆情监测系统需要将这些舆情热点从众多主题中筛选出来,推送给舆情分析人员。筛选的时候应该注意“热点”一词不同方面的含义,最直观的含义就是某主题在某段时间内出现的频次;再有一方面的含义就是某主题除频次以外的权重,例如该主题来源页面的影响力、该主题的发展速度等。(3)话题追踪。网络话题的生命周期从最初的事件主题开始,经过一段时间的发展演化成为舆情热点,又经历一段时间的发展变化逐渐热度降低,最后消散。还有,在这个过程中话题的变异分支过程,都是在基于网络舆情进行决策分析时可以纳入考虑的影响因素。在分析大量话题生命周期后,可以从中总结一定的规律,对当前某话题的下个阶段进行一定的预测。(4)情感识别。网络话题除了对某个发生事件的客观描述外,还有一定的情感倾向,尤其是在网民对该话题的回复中,这种情感倾向会更加明显地体现出来。从整体上看,这种情感倾向会分为赞成、反对以及中立这3种大的方向。将人们对某个舆情热点的情感倾向进行直观体现,有助于更好地进行分析决策。这种分析不光要对舆情的当前状态进行情感识别,还要对该话题的发展过程中某个阶段的情感同时进行分析,以掌握舆论对该话题情感倾向的变化过程。
2.4结果呈现模块
网络舆情分析的目的是为相关的决策提供支撑依据,其分析结果需要简单直观地提供给决策分析人员,并在初步分析的基础上对整个结果进行二次挖掘。这就需要结果呈现模块能够动态图形化地展示分析结果,并对某些舆情热点、舆情的重大拐点进行主动推送警告。根据一般化的网络舆情分析需求,必须实现的功能有:(1)针对所有主题的查询。(2)新主题的推送。(3)舆情热点、拐点的警告。(4)舆情发展态势图。
3总结展望
总的来说,一个舆情监测系统,无论具体实现细节上有多大差异,其运转流程总是按照数据获取、预处理、数据分析、结果呈现这4个步骤进行。在革命性技术手段出现之前,要对系统进行进一步的提高和完善,就需要从两个方面开展工作。一方面在数据采集部分,需要扩充监控网页的类型,如加入论坛、社区网页的搜集,或采用多种形式搜集策略相结合的方式,如聚焦爬虫、网站监控等策略,收集最广泛专业的舆情基础数据;另一方面在舆情的智能分析决策方面,以自然语言处理技术与数据挖掘技术为基础,融入包括智能检索、自动摘要、热点事件自动发现、热点词发现等高级需求,对舆情报警以及统计报表等功能进行扩展。
作者:李振江 单位:甘肃政法学院
相关专题:永兴岛 家庭如何应对金融危机