1共词分析的主要聚类方法
k-means聚类是一种简单并且应用极为广泛的算法,有很多的研究成果都基于k-means算法。但是这种算法的最大问题在于如何确定聚类数量k值和初始中心点11。这就使得该算法有很大的不确定性,k值的选取在很大程度上影响着聚类的效果,不同的初值也会对聚类的结果产生影响。如果k值小于理想聚类的数目,就会使一些类别错误的聚合在一起;如果k值大于理想聚类的数目,则会让一些类别被拆分成多个子类。总之,无论k值是大于或小于理想聚类的数目都会对最终的聚类结果产生影响,对后续的分析处理工作形成一定的阻力12。初始中心点的选取也能直接的影响聚类的结果和聚类的速度,此外初始中心点的选取也能直接的影响聚类的结果和聚类的速度。简单中心聚类是一种简单的聚类算法,主要通过两个步骤的聚类找出类内关系和类间关系。第一步,将关联较强的节点间建立类内连接,第二步,在关联较弱的网络间建立类间连接。1998年由CoulterN等发表的“Softwareengineeringasseenthroughitsresearchliterature:Astudyinco-wordanalysis”,将共词分析应用于软件工程领域13。2011年由CoboMJ等发表的“Anapproachfordetecting,quantifying,andvisualizingtheevolutionofaresearchfield:ApracticalapplicationtotheFussySets•Theoryfield”将共词分析应用于粗糙集研究领域14。这两篇文献均采用了简单中心算法进行共词聚类。简单中心算法应用简单但具有很大的局限性,因为其在第一阶段中,只是利用相似度和阈值的限制将各个节点聚集到一起形成各个类别,并没有进一步判断所聚得的类是否正确,是否存在聚类偏差。这样再进行第二阶段类间聚类时就会使最终的聚类结果偏差扩大,影响聚类结果。层次聚类又称为等级聚类,根据聚类过程方向的不同,可分为凝聚法和分裂法两种。凝聚法采用自底向上的方法,首先将每个对象作为一个类,然后合并最接近的两个类,直到某个终结条件被满足。分裂法凝聚法相反,采用自顶向下的策略,它首先将所有对象置于一个类中,然后逐渐细分为越来越小的类,直到达到了某个终结条件。
2002年Ibekwe-SanJuanF等发表的“Fromtermvariantstoresearchtopics”15以及2009年YinR等发表的“HotspotforStudyinUMLofChina:Co-wordAnalysis”16均采用了层次聚类方法来进行共词分析。层次聚类因为操作简单被广泛应用,但其也具有一定的局限性,该算法没有全局优化的目标函数,而且一旦一个步骤(合并或分裂)完成,它就不能被取消,并且在聚类过程中必须决定聚类在什么时候停止,以得到某个数量的分类。谱聚类算法建立在谱图理论的基础上,将聚类问题转化为图的最优划分问题。假定将每个数据样本看作图中的顶点V,根据样本间的相似度将顶点间的边E赋权重值W,得到基于样本相似度的无向加权图G=(V,E),在图G中就可将聚类问题转化为图划分问题。基于图论的最优划分准则就是使划分成的子图内部相似度最大,子图之间的相似度最小。ChenChaomei等开发的CitespaceⅡ软件采用谱聚类进行共词分析及共引分析等17。谱聚类算法因为不用对数据做任何假设,所有相对于传统聚类算法来说更加鲁棒,并且在聚类过程中进行了特征空间的转换,可以将大的空间转化为较小的空间,可以更快速地处理大规模的数据,非常适合于许多实际问题,引起了学术界的广泛关注。
2共词分析方法的学科领域应用
共词分析较多的应用在科学技术管理领域,例如Kostoff等人在技术路线图中引入了共现分析及引文分析方法18;LeeSungjoo等人采用共词分析、网络分析等文本挖掘的方法来进行新产品的技术路线设计19;Bredillet等将共词分析方法用于分析“项目管理”学科的发展趋势20。共词分析也较多应用在生物医学及化学领域,例如EstabrooksCA等人对护理专业的相关文献进行了共词分析等计量学分析21;NobisM;WohlgemuthT等人对基于生态学核心期刊对生态学的发展趋势进行了分析22;Viedma-Del-Jesus,MI基于45年以来的心理生理学杂志进行了共词分析23。共词分析做为计量学方法也被应用到计量学领域,例如DingY采用共词分析对信息检索领域的文献进行分析8,UzunA采用共词分析等计量学方法对发展中国家及东欧国家的图书情报学领域的文献进行了分析24。
3结语
经过多年发展,共词分析原理及方法在不断改进,并在不同领域得以广泛应用。共词分析方法研究中,文献标引的主观因素以及聚类方法的选择都会对分析结果产生影响。随着方法的不断改进,共词分析法在挖掘文献知识,概述研究领域的研究热点,分析学科领域的发展过程、提高检索效率等方面有着广阔的前景。
作者:王飒 包丽颖 单位:北京理工大学