摘要:随着信息技术的不断发展,网络得到了普及,互联网已经逐渐成为人们交流的重要平台,因此,网络舆情逐渐成为人们生活中不可或缺的组成部分。但是,随着人们之间地交流越来越便捷,这就难免会发生突发性网络恶性事件,因此,全面掌握网络舆情的相关信息,加强网络舆情的监测,能够防止网络恶性事件的发生,进而保障社会的稳定性。
关键词:敏感信息;网络舆情;系统设计
中图分类号:G206 文献标识码:A 文章编号:1008-7508(2016)03-0026-02
敏感信息是一个相对的概念,特别是在舆情信息监测领域中,对不同的用户而言他们所认为的敏感信息也就不尽相同。通常来说,敏感信息主要是由四个部分组成,分别是敏感词语、敏感词语的关联词语、两者之间相关的程度以及两者之间地关联规则。
一、敏感信息挖掘
1、敏感信息挖掘方法
目前,敏感信息挖掘技术主要是采用关联分析与聚类分析等技术,从而获得与敏感词语相关的敏感信息。关联分析技术的应用范围较为广泛,且发展速度较快。关联分析技术主要包括了关联词与关联规则两个部分,其中,关联规则主要是通过用户指定的最小支持度与最小置信度两种方式而得到关联规则。挖掘关联规则的过程中,先应从资料集合中找到相关的高频项目组,然后再从这些高频项目组中寻找到关联规则。聚类分析技术主要是为了找到相关话题的文本信息,从而实现对主题的监测,并达到主题追踪的目的。这种技术的应用过程主要包括三个步骤,其中,第一个步骤是特征提取,主要是指经过信息的输入后,对信息进行筛选,得到样本的特征向量,最终获得一个矩阵;第二个步骤是文本的聚类,主要是指对特征提取后的结果进行聚类,可以获得一个反映N维空间中所有样本点之间地距离,其操作结果是可以获得一个聚类谱系图;第三个步骤是选取分类阈值,主要是指在得到聚类谱系图后,对阈值进行确定,然后便能够直接得到分类方案。
2、敏感信息挖掘的实现
敏感信息挖掘主要是通过四个步骤实现:第一步主要是设定初始敏感特征。一般来说,在描述初始敏感特征时主要采用两种方法,分别是关键词描述法与敏感文档描述法,当用户设置了初始敏感特征后,系统会依据已有的相关信息建立相应的敏感特征指示向量,从而可以查询相关的信息。第二步主要是分析输入文档的敏感度。系统会依据已经确定的敏感信息从而确定敏感词语的查询条件,然后将其提供给系统搜索引擎,接下来系统会依据搜索引擎返回的相关信息筛选出若干篇与之相关的文档信息,从而形成基础分析集,并从该集合中提出特征并进行标识与计算,最终给出相关的敏感词语,发掘出新的敏感信息。第三步主要是机器动态自学习。系统得到初始文档信息集合后,依据训练语料,自动性地提取相关的敏感事件类型、数据项以及时效等相关的信息,进而自动形成敏感信息的语义表达方式,最终达到发掘网络热点或者是进一步跟踪原先敏感事件的目的。第四步主要是信息预警。系统可以依据实际的状况,设定搜索敏感词语的时间周期,然后依据敏感信息知识库对相关敏感词语进行搜索,判断搜索的结果,一旦搜索结果距离某个用户设定的敏感特征项小于设定阈值时,系统程序将会自动报警,表明该用户关注了敏感信息,若用户处理了敏感信息,那么相应的敏感信息将会对敏感信息知识库中的敏感特征知识向量进行优化。
二、基于敏感信息挖掘的网络舆情分析
在网络舆情分析过程中,最为重要的是“热点”发现与主题追踪。接下来,我们对其进行详细介绍。
1、舆情信息“热点”发现
“热点”发现主要是通过自动抓取目标网站中的相关信息,从而获得当前最具影响力的舆情信息。热点自动监测的方法主要包括了五个步骤:首先,利用网络爬虫模块得到需要的网页信息,并对其进行动态性的监测,然后再由网页解析器对其进行清理,从而有效保留网页链接、题目、时间以及标题等相关信息,完成网页数据的清理工作;接下来,利用分词模块对文档中的信息进行特征词切分;紧接着,随机选择部分网页,从中进行特征提取,获得特征词语,并通过特征抽取模块对样本网页进行特征词评估,从而可以得到测试样本共同的特征向量;然后,采用特征向量的TFIDF值对文本的主题进行有效地表达,并利用VSM构建模块建立相应的向量空间模型[4];最后,通过系统中的热点发现模块获得与文本信息相关的矩阵,进而可以发现新的网页热点簇。
2、舆情信息主题追踪
一般来说,网络舆情监测分析主要是在主题发现与追踪的基础上,自动发现当前的舆情热点信息,并对其进行深入分析,从而全面展现当前的舆情热点信息。其中,话题追踪主要是根据话题及其相应的报道信息,鉴别当前网络中新出现的话题,进而实现对这些信息的动态性追踪。对话题检测时主要采用聚类算法,这种计算方法简便且运算的速度较快,但是这种方法检测话题时主要是依靠新闻语料的输入顺序。主题追踪主要是指在给定的追踪结构中,依据文本中的相关信息确定与文本具有联系的主题。主题追踪的目的主要是为了从大量的网络信息中,对给定的某个事件进行自动追踪,进而发掘出与主题相关的信息。主题追踪的方法主要有两种方式:其一,主要是在向量空间模型的基础上,充分运用信息检索技术,从而构建相应的查询表达式。这种主题追踪方法是依据训练集中的文本信息,从而构建一个可以用来追踪的查询表达式,然后采用这个查询表达式对没有处理的网页信息进行匹配;其二,主要是在文本分类技术的基础上的改进算法,较为常用的改进算法主要有KNN算法与判定树算法。
三、基于敏感信息挖掘的网络舆情系统设计
1、网络舆情系统的层次
网络舆情系统主要是利用整合互联网搜索技术与信息智能处理技术,对互联网中大量的信息进行抓取与热点发现,从而满足相关机构对网络舆情的监测,并自动实现对主题信息的追踪,最终形成相应的分析结果。一般来说,网络舆情监测系统可以分为三大层次,分别是前端采集层、后台分析层以及用户交互层。其中,前端采集层主要是对基础数据进行分析,它可以运用网络爬虫技术对当前的新闻、论坛等相关信息进行自动抓取,同时可以形成敏感信息知识库、制定相应的关联规则并进行使用,还可以对获得的文本信息进行筛选与处理。后台分析层主要是运用自然语言处理技术与数据挖掘技术对第一层次的信息进行检索,从而形成特征提取,进而发现热点信息,最终完成对网络舆情事件的跟踪,用户交互层主要是依据用户的需求,对后台分析层中的相关信息进行统计,并依据该用户的需求,进行相应的监测预警工作。
2、网络舆情系统的设计模块
网络舆情监控系统的设计主要包括了三大模块,分别是文本预处理模块、敏感信息分析模块以及舆情分析模块。文本预处理模块主要包括了两个步骤,分别是中文分词与信息筛选。其中,中文分词主要是对系统获得的无规则关键文本进行转换,从而形成敏感词集,然后对词集进一步进行处理,获得相应的关联词词集。目前,大多数系统主要采用中科院的分词工具imdict-chinese-analyzer,采用该分词工具进行分词时,其速度相对较快,且具有较高的工作效率。信息筛选主要是在得到分词之后,对分词集进行相应的处理,即将分词划分为不同的类别,但因类别较多,我们结合政府部门的工作重点,保留了名词、形容词与副词类别,得到一个集合,并除去该集合中一些无意义的词语。敏感信息分析模块主要是包括三大方式,分别是关联分析法、聚类分析法以及特征提取法。其中,关联规则挖掘的常见算法是Apriori算法,该算法的运用必须先形成所有频繁的项目集,然后从这些频繁项目集中形成所有可信的关联规则。这种算法最大的特点就是从单项开始,然后对其进行逐层筛选,从而得到有效地项目集,有效避免了对不可能的项的搜索。舆情分析模块主要提供了两种功能,分别是对舆情热点的发现以及对网络舆情主题的追踪。其中,热点发现的运用,能够让用户及时了解当前热门话题,全面掌握当前的网络舆情信息。在热点发现的过程中,舆情监测系统主要是依据用户输入的关键词得到信息、经常搜索的词语、浏览的网页以及论坛回帖等相关信息,然后对热点进行监测,并自动识别出网络中的“热点”信息,进而形成热点报警。舆情监测系统中的话题跟踪主要是通过主题跟踪法实现,主要是从训练集合中形成采用查询向量表示的追踪表达式,接下来采用这种追踪表达式对新抓取的网页信息进行判断,最终得到与当前关注话题相关的信息。综上所述,随着网络用户的不断增加,网络环境也变得越来越复杂,因此,网络舆情监测系统的建立就显得尤为重要。本文基于敏感信息挖掘,研究了与之相关的各种关键技术,提出了网络舆情监测系统的设计方法,从而能够有效实现对网络舆情的监测,进而达到维护社会的稳定性,促使政府部门的决策更加民主化、科学化。
参考文献:
[2]李斅葳.基于敏感信息挖掘的网络舆情监测系统研究[D].复旦大学,2013.
[3]于琨,孙新领.基于信息挖掘的高校网络舆情监测系统开发[J].河南机电高等专科学校学报,2012,01:24-26.
[4]张芳源.基于网络舆情的政府决策信息平台功能设计[D].安徽大学,2013.
[5]尚丹.网络“围观”对网络舆情的影响分析[D].郑州大学,2014.
作者:苟元琴 刘小强 单位:三门峡职业技术学院