1向量空间模型
通常情况下,该模型的信息过滤系统中,一般都用字项进行文档识别。例如,某一个含有不健康信息的文档D,可以用一个m维的向量D=(W1,W2…,Wm)来表示,其中m是文档内容总的字项数,Wi表示第i个字项的权值,其来表明第i个字项信息的重要程度。在实际过滤时,先对页面数据进行加工,将其当做是由n个词构成的向量P,再对P和D的相似度进行比较。当D对应的信息满足过滤要求时,便禁止这部分信息在网络中传播。
2潜在语义索引模型
该模型主要借助文档与字项之间的关系形成语义结构,这一结构充分反映出数据与数据之间最主要的联系模式。它最大的特点是忽略了单个文档对词的不同使用风格,不仅能够利用关键字的匹配来挖掘文档中隐含的潜在语义,而且还能对字项文档矩阵进行分解,并将较小的奇异值剔掉,达到过滤信息的目的。在以上三种常见的过滤模型当中,布尔逻辑模型主要是借助关键字集对逻辑关系进行运算后形成布尔表达式,然后再按照所得的表达式进行检索,其获得的结果集通常是海量的,也没有主次之分;向量空间模型则是将文档以字项权值的向量来进行标识,其仅仅属于一个数学描述,并未充分考虑用户对信息的实际需求情况;潜在语义索引模型虽然能够对信息的相关性进行较好的处理,但它却无法有效地解决信息分析的问题。
3一种新的网络信息过滤系统模型
基于以上三种模型本身都存在一定的缺陷,为了满足信息过滤的需求,并确保网络安全,本文提出一种新的信息过滤系统模型。
3.1系统模型的设计构思。在Internet中,网络信息过滤系统的最终目的是屏蔽不良信息或用户不感兴趣的信息。为满足这一需求,并尽可能提高系统的过滤速度和精确度,本文提出三级过滤机
制的系统模型,具体如下:当系统接收到用户的网页请求时,先进行URL过滤。如果属于黑名单地址列表中的地址,直接被屏蔽;只有与系统中存在的白名单地址列表相匹配的地址才允许通过;不在黑白名单的URL地址将进入第二级过滤——关键词过滤。若网页中不存在关键词,则会被直接过滤掉;通过以上二级过滤后,剩余的网页将进行第三级过滤——内容过滤,该过程主要利用网页分块和信息辨识技术。
3.2系统构成。该信息过滤系统主要由数据包捕获、训练部分和过滤部分构成。(1)数据包捕获。数据包捕获可以依赖OS实现,不同的OS提供不同的方法进行数据捕获。本系统采用Winsock2SPI来实现,其最大的特点是不需要具体的浏览器便能实现分别编程,且以DLL的形式存在于系统中,编程十分简单、调试很方便,安全性也较高。(2)训练部分。这部分的主要作用是生成用户兴趣模板。通过应用词汇组合对相关内容进行压缩处理,并提取摘要,再利用特征提取、训练模块等生成用户兴趣模块。(3)过滤部分。包括黑白URL名单过滤、关键词过滤和内容过滤。
3.3模块设计。主要包括分词模块、特征选择模块、权重模块、生成用户模板模块、反馈模块等。(1)分词模块。分词就是将原有的文本格式转化成可用特征项表示的向量空间模型。通常应用汉语词法分析系统。(2)特征选择模块。本模块的主要功能就是在诸多特征项中进行选择和取舍,为后期计算提供便利。(3)权重计算模块。该模块是对确立的特征项在本文档中的重要程度的进一步描述。(4)生成用户模板模块。该模块是指,在系统的训练部分中采用遗传算法对类别模板进行优化,生成适合用户使用的类别模板。类别模板的构建直接关系到信息过滤分类的准确性。本模块通过两个步骤来实现的:其一,通过遗传算法进行优化生成模板;其二,利用反馈模块对模板修正。(5)反馈模块。它能对系统进行校正。当用户对过滤结果提出反馈意见后,该模块便可以对各种相关信息进行收集和分析,并将数据传送给类别模版构建新模块。
作者:韩旭 单位:河南牧业经济学院