本文作者:王春龙;张敬旭;成功正常投稿发表论文到《计算机应用》2014年01期,引用请注明来源400期刊网!
【摘要】:针对传统K-means算法初始聚类中心选择的随机性可能导致迭代次数增加、陷入局部最优和聚类结果不稳定现象的缺陷,提出一种基于隐含狄利克雷分布(LDA)主题概率模型的初始聚类中心选择算法。该算法选择蕴含在文本集中影响程度最大的前m个主题,并在这m个主题所在的维度上对文本集进行初步聚类,从而找到聚类中心,然后以这些聚类中心为初始聚类中心对文本集进行所有维度上的聚类,理论上保证了选择的初始聚类中心是基于概率可确定的。实验结果表明改进后算法聚类迭代次数明显减少,聚类结果更准确。
【论文正文预览】:0引言随着互联网的不断发展,网络上文本信息呈爆炸式增加,如何精准有效地发现、组织和利用海量文本背后的有用信息成为一个热门话题[1],文本聚类技术作为自然语言处理的预处理步骤[2],对文本进一步分析和处理产生了重要的影响。目前比较经典的文本聚类算法大致分为划分方法、
【文章分类号】:TP301.6;TP391.1
【稿件关键词】:主题模型K-means聚类中心文本聚类隐含狄利克雷分布
【参考文献】:
- 张梦笑;王素格;王智强;;基于LDA特征选择的文本聚类[J];电脑开发与应用;2012年01期
- 王李冬;魏宝刚;袁杰;;基于概率主题模型的文档聚类[J];电子学报;2012年11期
- 张猛,王大玲,于戈;一种基于自动阈值发现的文本聚类方法[J];计算机研究与发展;2004年10期
- 袁方;周志勇;宋鑫;;初始聚类中心优化的k-means算法[J];计算机工程;2007年03期
- 贾西平;刘海珠;;一种潜在文档相似模型[J];计算机工程;2009年15期
- 行小帅,潘进,焦李成;基于免疫规划的K-means聚类算法[J];计算机学报;2003年05期
- 曹娟;张勇东;李锦涛;唐胜;;一种基于密度的自适应最优LDA模型选择方法[J];计算机学报;2008年10期
- 张玉芳,毛嘉莉,熊忠阳;一种改进的K-means算法[J];计算机应用;2003年08期
- 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期
- 张明卫;刘莹;张斌;朱志良;;一种基于概念的数据聚类模型[J];软件学报;2009年09期
- 李广水;宋丁全;;数据分析在森林资源调查中的应用及发展研究[J];安徽农业科学;2009年22期
- 龚书;瞿有利;田盛丰;;基于语义的自动文摘研究综述[J];北京交通大学学报;2009年05期
- 左国才;周荣华;符开耀;;基于DBSCAN算法的电信客户分类的应用研究[J];北京联合大学学报(自然科学版);2012年03期
- 李晓方;武仲科;樊亚春;周明全;柳勇光;;一种新的用于三维检索的快速邻域搜索方法[J];北京师范大学学报(自然科学版);2011年05期
- 李业丽;秦臻;;一种改进的k-means算法[J];北京印刷学院学报;2007年02期
- 宋殿霞;王艳;邹光辉;;空间数据挖掘聚类算法研究[J];滨州学院学报;2006年06期
- 章林柯;崔立林;;潜艇机械噪声源分类识别的小样本研究思想及相关算法评述[J];船舶力学;2011年08期
- 孙英娟;杨柳;何昆鸟;;属性离散化算法研究[J];长春师范学院学报(人文社会科学版);2009年12期
- 江炳坤;任超;秦永波;;K-means算法复杂度的能量分析方法[J];成都信息工程学院学报;2010年06期
- 陈庆枝;陈国龙;郭文忠;陈仕涛;;信息安全评估日志数据的一种混合聚类算法[J];重庆工学院学报(自然科学版);2009年10期
- 曾成;赵锡均;徐红;;基于量子遗传算法的聚类方法[A];第二十九届中国控制会议论文集[C];2010年
- ;A Fuzzy Neural Network System Modeling Method Based on Data-driven[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
- 刘保政;汪定伟;;基于多因素的相近距离聚类方法研究[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
- 张立涛;张宇峰;;基于聚类分析的大型桥梁结构健康监测数据异常识别研究[A];第21届全国结构工程学术会议论文集第Ⅱ册[C];2012年
- 江华;王翰虎;陈梅;;一种基于K-means聚类分组的P2P超结点模型[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
- ;Spherical Credibilistic Clustering Algorithm for Text Data[A];第一届中国智能计算大会论文集[C];2007年
- ;Obtaining Profiles Based on Localized Non-negative Matrix Factorization[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
- 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
- 向继;荆继武;高能;;一种自动搜索阈值的中文文本层次聚类方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
- 孙承杰;朱文焕;林磊;刘远超;;BBS短文本聚类技术研究[A];第五届全国信息检索学术会议论文集[C];2009年
- 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
- 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
- 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
- 徐红波;基于空间填充曲线高维空间查询算法研究[D];哈尔滨理工大学;2010年
- 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
- 尹可挺;Internet环境中基于QoS的Web服务组合研究[D];浙江大学;2010年
- 丁轶群;基于概率生成模型的文本主题建模及其应用[D];浙江大学;2010年
- 皋军;智能识别中的降维新方法及其应用研究[D];江南大学;2010年
- 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
- 卓莹;基于拓扑·流量挖掘的网络态势感知技术研究[D];国防科学技术大学;2010年
- 刘文昊;基于模糊聚类和纹版辅助的织物疵点检测算法研究[D];浙江理工大学;2010年
- 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
- 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
- 孟庆海;基于社会书签的个性化查询词扩展技术研究[D];哈尔滨工程大学;2010年
- 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
- 邹关力;基于社保审计知识的审计方法发现研究[D];哈尔滨工程大学;2010年
- 刘萍;软件体系结构恢复的研究与实现[D];大连理工大学;2010年
- 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年
- 李丹丹;基于权重设计的聚类融合算法研究及应用[D];辽宁工程技术大学;2009年
- 刘琼;基于群体智能的聚类算法研究[D];长沙理工大学;2010年
- 李洁;高新波;焦李成;;基于特征加权的模糊聚类新算法[J];电子学报;2006年01期
- 刘铭;王晓龙;刘远超;;基于语义的高维数据聚类技术[J];电子学报;2009年05期
- 刘涛,吴功宜,陈正;一种高效的用于文本聚类的无监督特征选择算法[J];计算机研究与发展;2005年03期
- 罗景;涂新辉;;基于概率潜在语义分析的中文信息检索[J];计算机工程;2008年02期
- 王磊,潘进,焦李成;免疫规划[J];计算机学报;2000年08期
- 曹娟;张勇东;李锦涛;唐胜;;一种基于密度的自适应最优LDA模型选择方法[J];计算机学报;2008年10期
- 白硕;不完全知识下的概念聚类[J];计算机学报;1995年06期
- 王卫玲;刘培玉;刘克非;;一种用于Web文本聚类的特征选择方法[J];计算机应用与软件;2007年01期
- 陈恩红;王上飞;宁岩;王煦法;;一种利用代表点的有效聚类算法设计与实现[J];模式识别与人工智能;2001年04期
- 郭建生,赵奕,施鹏飞;一种有效的用于数据挖掘的动态概念聚类算法[J];软件学报;2001年04期
- 郑伟;季铎;蔡东风;王爽;;基于文本最小相似度的中心选取方法[J];广西师范大学学报(自然科学版);2008年03期
- 李伟;黄颖;;文本聚类算法的比较[J];科技情报开发与经济;2006年22期
- 尉建兴;崔冬华;宁晓青;;蛙跳算法在Web文本聚类技术中的应用[J];电脑开发与应用;2011年05期
- 田力威;曹安得;;基于兴趣相似性的Web用户聚类方法[J];计算机与信息技术;2010年10期
- 龙海侠;须文波;孙俊;;基于QPSO的数据聚类[J];计算机应用研究;2006年12期
- 韩红旗;朱东华;汪雪锋;;类关联词约束的K-Means半监督文本聚类方法[J];微计算机信息;2010年15期
- 冯燕;王洪元;程起才;刘爱萍;;基于LLE-k均值方法的中文文本聚类[J];计算机与数字工程;2010年11期
- 王银辉;熊忠阳;;使用BP网络改进K-means聚类效果[J];计算机科学;2006年03期
- 索红光;王玉伟;;一种用于文本聚类的改进k-means算法[J];山东大学学报(理学版);2008年01期
- 石云平;;使用平均误差准则函数E的K-means算法分析[J];计算机与信息技术;2008年08期
- 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
- 胥威汀;刘俊勇;刘友波;;基于SOM和ID3算法综合分析的负荷特性研究[A];中国高等学校电力系统及其自动化专业第二十四届学术年会论文集(中册)[C];2008年
- 蔡江辉;张继福;赵旭俊;;一种基于距离支持度的离群数据挖掘算法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
- 李柠;李少远;席裕庚;;pH中和过程的多模型预测控制[A];第二十届中国控制会议论文集(上)[C];2001年
- 刘文;熊仁生;许峰;;CCD立靶测量系统目标检测方法讨论[A];大珩先生九十华诞文集暨中国光学学会2004年学术大会论文集[C];2004年
- 梁久祯;;核函数参数优化的聚类算法[A];第三届全国信息获取与处理学术会议论文集[C];2005年
- 张晓峰;王丽珍;陆叶;;一种基于属性加权的不确定K-means聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
- 吴继兵;李心科;;基于K-最近邻居图划分的聚类中心初始化算法[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
- 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
- 李刚;张凯锋;王一清;邓胜;;基于改进K-means的负荷坏数据修正[A];中国高等学校电力系统及其自动化专业第二十四届学术年会论文集(上册)[C];2008年
- 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
- 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
- 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
- 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
- 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
- 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
- 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
- 金健;委员会机器模型及其应用[D];华东师范大学;2008年
- 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
- 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
- 孔万增;基于学习的人脸识别研究[D];浙江大学;2008年
- 陈晓峰;核方法在分类、回归与聚类方面的研究及应用[D];江南大学;2009年
- 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
- 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
- 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
- 李荣青;一种改进的文本聚类中心选择算法的研究[D];辽宁工程技术大学;2008年
- 王玉伟;面向用户兴趣的web文档聚类研究[D];中国石油大学;2008年
- 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
- 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
- 陈宝楼;K-Means算法研究及在文本聚类中的应用[D];安徽大学;2013年
- 郑晓亮;基于改进FCM算法的无字典中文文本聚类方法研究[D];浙江大学;2007年
- 邓海;降维多核K-Means算法在文本聚类中的研究[D];广西大学;2013年
【稿件标题】:lda 聚类范文|基于LDA的改进K-means算法在文本聚类中的应用
【作者单位】:华北电力大学控制与计算机工程学院;甘肃省电力公司;
【发表期刊期数】:《
计算机应用》2014年01期
【期刊简介】:《计算机应用》杂志是由中华人民共和国新闻出版总署、正式批准公开发行的优秀期刊,计算机应用杂志具有正规的双刊号,其中国内统一刊号:CN51-1307/TP,国际刊号:ISSN1001-9081。计算机应用杂志社由四川省科学技术协会主管、主办,本刊为月刊。自创刊以来,......更多
计算机应用杂志社(
http://www.400qikan.com/qk/5984/)投稿信息
【版权所有人】:王春龙;张敬旭;
更多
科技类论文详细信息:
lda 聚类范文|基于LDA的改进K-means算法在文本聚类中的应用
http://www.400qikan.com/lunwen/keji/16398.html
相关专题:儿科护理论文 税收征管法全文 《计算机应用》相关期刊
推荐期刊:
佛山科学技术学院学报党建都市家教中国校园文学物理与工程中国钨业吐鲁番科技人力资源中国医院用药评价与分析山西电子技术
上一篇:
嵌入式系统范文|Java技术在嵌入式系统中的作用探究
下一篇:
【图像配准范文】基于改进尺度不变特征的图像局域几何配准研究