网络舆情监测系统研究

【在线投稿】【期刊征稿】专题：论文发表来源：http://www.400qikan.com/

投稿问题

1研究现状

舆情监测工作由来已久，最早的网络舆情监测手段也是基于传统的手工模式。通过雇佣大量工作人员对指定的监测页面进行监测，使用人工方式，对某些重点监测词汇进行频率统计来寻找舆情动向。然而随着互联网的蓬勃发展，传统的方式已经落伍，要对网络舆情进行监测，就必然要依托于一个功能强大的互联网舆情监测系统进行。伴随着网络的发展，国内外已有一系列的网络舆情监测系统正式投入使用，这些系统通常是依托于政府部门、学术机构以及企业媒体建设的，分别基于不同的需求（行政决策的、学术研究的、商业开发的），从不同的角度对网络舆情进行监测。最早的相关研究始于TDT（TopicDetectionandTracking）项目［2］，它是美国国防高级研究计划局主导的，旨在从新闻网页中找到未知话题并对话题进行追踪。该项目历经多年发展演变，其核心研究内容分为报道切分、话题追踪、话题监测、首次话题报告以及关联监测这5个方面的内容［3］。在我国，由于中西文在文本挖掘、分词方面的巨大差异，以及社会经济等方面的差异，基于汉语的网络舆情监测研究起步较晚［4］。目前，学院型的舆情研究机构主要有北京大学中国国情研究中心、中国人民大学舆论研究所、上海交通大学舆情研究实验室等［5］。

2网络舆情监测系统框架

从过程上看，网络舆情监测的本质是从网络上获取数据、分析数据以及按用户需求呈现分析结果的过程，因此在系统实现时，从数据流向的角度，可以把一个网络舆情监测系统划分为数据获取模块、数据预处理模块、数据分析模块以及结果呈现模块，整个系统的结构如图1所示。

2．1数据获取模块

数据获取模块的主要功能是全天候的、自动的从整个网络上，或者某些特定网络上获取进行舆情分析的原始数据。在自动获取数据的过程中，有两方面的要求。一方面，是获取的相关舆情数据相对于整个数据的覆盖率的要求，即要尽可能地获取尽量全面的原始数据；另一方面，则是对数据准确率的要求，即所需数据要尽可能贴近用户关心的舆情热点。只有在覆盖率和准确率全部达标的情况下，才能更好地对网络舆情进行分析预测。目前，常见的数据获取方式有两种：（1）网络爬虫方式。互联网的一项基本协议是HTML协议，基于该协议，网络中大量资源以统一资源定位符（URL）相互联系，构成一个有机整体。网络爬虫从一个预先定义好的URL列表开始，依次访问该列表上的所有页面进行数据抓取，并分析当前访问页面中的其他URL，选择符合要求的URL加入待访问队列，试图以深度或者广度的方式对限定范围的网络进行遍历式的访问，以获取该网络的所有信息。（2）元搜索采集技术。搜索引擎是大多数网民访问网络的入口，目前有众多的搜索引擎服务提供商，其检索过程有不同的侧重方向，检索结果也各不相同。可以在若干不同的搜索引擎上部署元搜索引擎，通过对下层引擎的调用返回多个搜索结果，并基于一定的算法对不同结果进行选择。使用该方法能够有效地提高数据获取的覆盖率和准确率，且系统构建较为简单。

2．2数据预处理模块

Web页面的数据有其自身特点，它是一种半结构化的数据，整个数据包括内容和描述两个部分，且两者混杂在一起。直接通过数据获取模块抓取的页面内容复杂，存在大量噪音，文本内容非结构化，无法直接进行下一步的分析工作，对这些原始页面必须进行一次数据预处理。预处理的过程大体上分为两步：（1）进行网页内容提取。将用户关心的内容（例如新闻的内容、对主题的讨论等）从噪音（如页面上的广告、导航以及其他超链接）中找出。将页面转化为一个HTML标签树，根据已有知识建立提取规则，最后依据规则对页面内容进行提取。如何建立一个合适的规则是提取工作的核心，可以针对某类特定的网站建立专属规则，也可以针对一般页面的结构特点建立一些通用规则。（2）进行中文文本分词。自然语言中，词是最小的独立活动的语言成分。要对页面提取获得的非结构化连续文本进行处理，首要的工作就是对其进行分词。分词是将输入的一段文本分解为符合逻辑的一组单词的过程，例如输入“羽毛球拍”时，依照某种分词算法就可以初步将其分解为羽毛、羽毛球、球拍3个单词。最简单的分词算法以词典为基础，通过对字符串匹配完成初步工作，之后辅以少量词法、语法和语义规则；另一种思路是基于统计进行分词，统计文本中相邻字同时出现的频率，频率越高就越可能构成一个词；还有一些基于规则的分词算法，通过模拟人对句子的理解过程，对当前句子的语法、句法、词法进行分析推理，能够自动补全未登录词条。

2．3数据分析模块

数据分析模块是整个网络舆情监测系统的智能核心，在本质上是一个数据挖掘的过程。它负责将前期获得的网页内容进行深度挖掘，发现新的舆情热点，并对原有的舆情趋势进行分析。一个典型的系统应具备以下几方面的功能：（1）主题聚类。聚类可以很直观地从海量数据中发现新的主题。将处理过后的网页内容归一化到某个特征空间中，在这个特征空间中以某种方式，将特征接近的页面内容划分为不同的类别，相应类别的聚类中心就可以认为是新的主题。（2）热点发现。在当今网络时代，每天产生的舆情主题众多，其中有些主题能够迅速成为当下的舆情热点，舆情监测系统需要将这些舆情热点从众多主题中筛选出来，推送给舆情分析人员。筛选的时候应该注意“热点”一词不同方面的含义，最直观的含义就是某主题在某段时间内出现的频次；再有一方面的含义就是某主题除频次以外的权重，例如该主题来源页面的影响力、该主题的发展速度等。（3）话题追踪。网络话题的生命周期从最初的事件主题开始，经过一段时间的发展演化成为舆情热点，又经历一段时间的发展变化逐渐热度降低，最后消散。还有，在这个过程中话题的变异分支过程，都是在基于网络舆情进行决策分析时可以纳入考虑的影响因素。在分析大量话题生命周期后，可以从中总结一定的规律，对当前某话题的下个阶段进行一定的预测。（4）情感识别。网络话题除了对某个发生事件的客观描述外，还有一定的情感倾向，尤其是在网民对该话题的回复中，这种情感倾向会更加明显地体现出来。从整体上看，这种情感倾向会分为赞成、反对以及中立这3种大的方向。将人们对某个舆情热点的情感倾向进行直观体现，有助于更好地进行分析决策。这种分析不光要对舆情的当前状态进行情感识别，还要对该话题的发展过程中某个阶段的情感同时进行分析，以掌握舆论对该话题情感倾向的变化过程。

2．4结果呈现模块

网络舆情分析的目的是为相关的决策提供支撑依据，其分析结果需要简单直观地提供给决策分析人员，并在初步分析的基础上对整个结果进行二次挖掘。这就需要结果呈现模块能够动态图形化地展示分析结果，并对某些舆情热点、舆情的重大拐点进行主动推送警告。根据一般化的网络舆情分析需求，必须实现的功能有：（1）针对所有主题的查询。（2）新主题的推送。（3）舆情热点、拐点的警告。（4）舆情发展态势图。

3总结展望

总的来说，一个舆情监测系统，无论具体实现细节上有多大差异，其运转流程总是按照数据获取、预处理、数据分析、结果呈现这4个步骤进行。在革命性技术手段出现之前，要对系统进行进一步的提高和完善，就需要从两个方面开展工作。一方面在数据采集部分，需要扩充监控网页的类型，如加入论坛、社区网页的搜集，或采用多种形式搜集策略相结合的方式，如聚焦爬虫、网站监控等策略，收集最广泛专业的舆情基础数据；另一方面在舆情的智能分析决策方面，以自然语言处理技术与数据挖掘技术为基础，融入包括智能检索、自动摘要、热点事件自动发现、热点词发现等高级需求，对舆情报警以及统计报表等功能进行扩展。

作者：李振江单位：甘肃政法学院

相关专题：永兴岛家庭如何应对金融危机

上一篇：档案馆办公自动化系统设计及实践
下一篇：没有了

网络舆情监测系统研究

认准400期刊网可信　保障　安全　快速　客户见证　退款保证

期刊分类

栏目分类

期刊知识

推荐期刊

品牌介绍

网络舆情监测系统研究

认准400期刊网 可信 保障 安全 快速 客户见证 退款保证

期刊分类

栏目分类

期刊知识

推荐期刊

品牌介绍

认准400期刊网可信　保障　安全　快速　客户见证　退款保证