1系统软件架构
本系统充分利用软件技术发展的最新成果,以多层Web体系结构作为软件架构的基础。系统分为5个层次[2],系统的软件架构如图1所示,系统各层的概述如下:(1)访问工具层。访问工具层是系统的用户接触层,可以通过Web浏览器和一些常用的办公软件访问,也可支持实时通信工具(RTX等),从而实现知识的实时在线交流。(2)KM表现层。企业知识管理的交互活动在企业知识门户中进行,知识体系和知识关联通过知识地图来体现。(3)KM应用层。包括知识资源管理、知识协作管理、企业文化管理、决策支持和外部知识管理等[3]。(4)KM核心服务层。本层是从软件工程技术的角度出发,将知识共享循环的动态过程以统一的系统接口提供服务,这些接口包括各种用于沟通的通信服务、组织的管理以及文档和流程的管理。(5)KM平台。主要构成为服务器硬件与知识管理的网络环境、数据库以及应用服务器。
2系统主要功能实现
2.1知识地图
知识地图的本质是通过先进的信息技术搜集的企业知识资源总目录及各知识条目相互关系的综合体。主要包括:①通过调查获取的企业知识资源总目录;②目录内各条目之间的相互关系。本系统中知识地图主题词表是针对我国煤炭行业安全领域所建立。它主要由索引和主表两部分构成。索引是使用本主题词表的辅助查词工具;主表是由主题词款目及非主题词款目组成,款目序列按汉语拼音字顺规定的同音同调同形排列,是主体标引和检索查询的主要工具。
2.2主题词和关键词自动标引
本系统基于TF-IDF技术进行词条的权重值计算,从而完成主题词和关键词的自动标引。(TF词频(TermFrequency),IDF逆向文档频率(InverseDocumentFrequency))。TF-IDF的理论基础是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,可以产生出高权重的TF-IDF,则认为此词或者短语具有很好的类别区分能力,适合用来分类。计算公式采用归一化的TF-IDF公式:其中,W(t,d)为词t在文本d中的权重,而TF(t,d)为词t在文本d中的词频,N为训练文本的总数,nt为训练文本集中出现t的文本数,分母为归一化因子。
2.3文档自动分类
本系统采用的文档自动分类的实现方法是余弦正规化法。(1)模型定义。在向量空间模型[4]中,定义N表示整个文档中词条的总数,文本表示为由各个词条的权重构成的N维向量:dj=(w1,j,w2,j,…,wN,j)Wi,j表示词条i在文档dj中的权重,如果Wi,j=0,则说明词条i在文档dj中未出现。(2)权重值确定。应用TD-IDF理论,对文档中每一维都统计出了其词频(TF)和逆向文档频率(IDF),分别表示为:其中,Wi,j为词条i在文档dj中的权重;TFi,j为词条i在文档dj中的词频;IDFi为词条i的逆向文档频率;n表示文档的总数;ni表示包含词条i的文档总数。(3)余弦正规化向量表示。余弦正规化法[5]是通过整个文档向量的长度来实现。当一个文档向量构成完成后,该向量的每一维都设定了对应词条的TF×IDF值,将这个向量的所有维上的这个值都除以该文档向量的欧氏长度,即得到经过正规化的文档向量。其中,dj为文档j构成的N维向量;LC(dj)为文档j经过余弦正规化后的向量长度;αj为文档j向量与对应坐标轴上投影的夹角;N表示文档j的维数;Wi,j为词条i在文档dj中的权重。文档的聚类的过程为:首先,对分类树内的每一个文档采用余弦正规化法进行向量表示,在同一分类的文档中取该分类下所有文档的向量表示的平均值作为该分类的向量长度,从而得出其平均余弦夹角αm,对需要聚类的新文档计算得出的余弦夹角αk进行比较,取两者夹角最小的分类做个新文档的分类。
2.4Tag云图检索
Tag云图检索方式,采用F.Karinthy提出的六度空间理论。他认为,最多通过六位联系人,就能将世界上的任何两人联系起来[6]。在信息时代,人与人的关系已经深度社会化,任何两位素昧平生的人都能够经由“六度空间”产生必然联系或关联[7]。将“六度空间理论”应用到信息检索系统中,这就意味着用户要找到一篇文档,平均最多在Tag云图中选取6个关键词就可以检索到所需要的文档。
3结论
运用知识管理的理论和方法,以互联网技术和信息技术作为基础,开发出五层Web体系结构信息管理系统,并完成相关功能模块设计。主要的作用和意义体现在以下几个方面:(1)为煤矿安全人员提供知识共享的平台;(2)提供适当的工具和环境辅助安全人员方便快捷地找到所需要的有价值的信息,从所处网络环境接受知识;(3)增加煤炭企业的知识储备,将个人知识转变为组织知识,减少因企业人员流动而造成的损失;(4)知识地图能有效组织企业内部的知识和专长信息,员工在需要时可以非常方便地查找到专家,进行直接交流,从组织网络获取知识,高效优质地完成任务。
作者:何敏 单位:自动化股份有限公司