本文作者:唐晓丽;白宇;张桂平;蔡东风;成功正常投稿发表论文到《山西大学学报(自然科学版)》2014年04期,引用请注明来源400期刊网!
【摘要】:借鉴主题模型的思想,利用word2vec训练数据的高效性以及词聚类结果的有效性,提出了一种基于word2vec的文本建模方法。该方法以word2vec算法得到的词聚类结果为基础,统计文本在词聚类类别上的概率分布,获得文本在类别空间上的特征向量,完成文本建模。将其与两种经典的文本建模方法VSM和LDA进行比较,实验结果显示在聚类效果上F值分别提高6.01%、1.01%,在算法效率上有明显的提高。
【论文正文预览】:0引言随着Web信息的爆炸式增长,计算机的信息处理已进入大数据时代。信息融合技术为Web信息处理提供了新的方法。信息融合[1]借鉴人脑的工作原理,利用计算机对具有相似或不同特征的多源数据和信息进行处理,为用户提供统一的信息视图和可综合利用的信息。文本形式是Web信息呈现
【文章分类号】:TP391.1
【稿件关键词】:主题模型wordvec文本建模文本聚类
【参考文献】:
- 张小平;周雪忠;黄厚宽;冯奇;陈世波;焦宏官;;一种改进的LDA主题模型[J];北京交通大学学报;2010年02期
- 马晖男;吴江宁;潘东华;;一种修正的向量空间模型在信息检索中的应用[J];哈尔滨工业大学学报;2008年04期
- 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期
- 石晶;胡明;石鑫;戴国忠;;基于LDA模型的文本分割[J];计算机学报;2008年10期
- 夏云庆;杨莹;张鹏洲;刘宇飞;;基于情感向量空间模型的歌词情感分析[J];中文信息学报;2010年01期
- 张志飞;苗夺谦;高灿;;基于LDA主题模型的短文本分类方法[J];计算机应用;2013年06期
- 王振振;何明;杜永萍;;基于LDA主题模型的文本相似度计算[J];计算机科学;2013年12期
- 刘平峰;章佩璐;张军;余文艳;;面向主题的Web信息融合模型[J];图书情报工作;2011年08期
- 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
- 王利峰;;动态索引树文本聚类方法中节点阀值的优化[J];电脑开发与应用;2010年09期
- 许伟佳;;基于向量空间模型的文档聚类研究[J];电脑知识与技术;2009年25期
- 吴永辉;王晓龙;丁宇新;徐军;郭鸿志;;基于主题的自适应、在线网络热点发现方法及新闻推荐系统[J];电子学报;2010年11期
- 吴景岚;;一种基于GRASP的文档聚类算法[J];闽江学院学报;2009年05期
- 胡艳丽;白亮;张维明;;网络舆情中一种基于OLDA的在线话题演化方法[J];国防科技大学学报;2012年01期
- 孙建凯;李重;;最优聚类中心选取的半监督K均值聚类算法[J];工业控制计算机;2013年05期
- 马宁;刘怡君;;基于超网络中超边排序算法的网络舆论领袖识别[J];系统工程;2013年09期
- 马宝君;张楠;孙涛;;智慧城市背景下公众反馈大数据分析:概率主题建模的视角[J];电子政务;2013年12期
- 易军凯;田立康;;基于类别区分度的文本特征选择算法研究[J];北京化工大学学报(自然科学版);2013年S1期
- 王静;朱慕华;胡明涵;;部分监督的音乐情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
- 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年
- 刘权;郭武;;基于核主成分分析的话题跟踪系统[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
- 丁兆云;王晖;;一种词位置相关的LDA模型[A];2013第一届中国指挥控制大会论文集[C];2013年
- 丁轶群;基于概率生成模型的文本主题建模及其应用[D];浙江大学;2010年
- 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
- 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
- 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
- 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
- 王小芳;文本主题域划分与无监督特征提取[D];吉林大学;2009年
- 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
- 张冬梅;文本情感分类及观点摘要关键问题研究[D];山东大学;2012年
- 尹美娟;基于Web和Email的多元社会网络抽取与分析关键技术研究[D];解放军信息工程大学;2012年
- 王宝勋;面向网络社区问答对的语义挖掘研究[D];哈尔滨工业大学;2013年
- 李静;基于情感标签的音乐检索算法研究[D];大连理工大学;2010年
- 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
- 荣建文;基于RS-SVM的Web中文文本自动分类研究[D];东北财经大学;2010年
- 邓子平;面向医学诊疗的本体自动生成系统的研究与开发[D];广东工业大学;2011年
- 谢凤宏;基于复杂网络理论的文本聚类和关键词提取方法研究[D];辽宁师范大学;2011年
- 罗兵;基于协作过滤的反垃圾邮件网关的设计与实现[D];电子科技大学;2011年
- 程兆全;面向工程监理的多Agent信息智能检索机制研究[D];东北石油大学;2011年
- 俞文明;Web中文文本聚类研究[D];杭州电子科技大学;2009年
- 徐东亮;基于聚类分析的网络论坛舆情信息挖掘技术研究[D];哈尔滨工业大学;2010年
- 孙向琨;音乐内容和歌词相结合的歌曲情感分类方法研究[D];苏州大学;2011年
- 张仰森,徐波,曹元大;自然语言处理中的语言模型及其比较研究[J];广西师范大学学报(自然科学版);2003年01期
- 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
- 石晶;戴国忠;;基于PLSA模型的文本分割[J];计算机研究与发展;2007年02期
- 姚全珠;宋志理;彭程;;基于LDA模型的文本分类研究[J];计算机工程与应用;2011年13期
- 郑斐然;苗夺谦;张志飞;高灿;;一种中文微博新闻话题检测的方法[J];计算机科学;2012年01期
- 徐永东;徐志明;王晓龙;;基于信息融合的多文档自动文摘技术[J];计算机学报;2007年11期
- 李文波;孙乐;张大鲲;;基于Labeled-LDA模型的文本分类新算法[J];计算机学报;2008年04期
- 曹娟;张勇东;李锦涛;唐胜;;一种基于密度的自适应最优LDA模型选择方法[J];计算机学报;2008年10期
- 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期
- 王燕;一种改进的K-means聚类算法[J];计算机应用与软件;2004年10期
- 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
- 唐亮;段建国;许洪波;梁玲;;基于信息论的文本分类模型[J];计算机工程与设计;2008年24期
- 施化吉;王贤川;李星毅;;基于规则重构的关联文本分类[J];计算机工程与设计;2009年03期
- 刘伍颖;王挺;;适于垃圾文本流过滤的条件概率集成方法[J];计算机科学与探索;2010年05期
- 张征杰;王自强;;文本分类及算法综述[J];电脑知识与技术;2012年04期
- 彭其华;;关联挖掘下的海量文本信息深入挖掘实现[J];微电子学与计算机;2013年10期
- 汪明霓;BASIC文本系统[J];计算机应用研究;1988年01期
- 王东兴,冷惠文;大量编程用文本数据的统一处理[J];鞍山钢铁学院学报;1997年06期
- 周鹏;数据库中不规范文本文件的数据转换[J];电脑编程技巧与维护;2005年05期
- 谷峰;吴扬扬;;文本分类关键技术[J];福建电脑;2006年09期
- 宋东风;张志浩;;短文本数据的自动分类[J];电脑与信息技术;2007年01期
- 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
- 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
- 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
- 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
- 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
- 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
- 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
- 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
- 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
- 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
- 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
- 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
- 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
- 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
- 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
- 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
- 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
- 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
- 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
- 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
- 赵玉茗;文本间语义相关性计算及其应用研究[D];哈尔滨工业大学;2009年
- 姜英杰;基于本体的短文本分类研究[D];东北师范大学;2010年
- 杨硕;基于VSM文本分类系统的设计与实现[D];大连理工大学;2006年
- 马渊;短文本情感分析技术研究[D];重庆大学;2011年
- 张超;文本OLAP关键技术研究[D];山东大学;2012年
- 王宝龙;面向新闻领域的文本数据获取系统的设计与实现[D];北京邮电大学;2010年
- 曾洪波;基于类别裁剪和模糊理论的文本分类算法研究[D];暨南大学;2011年
- 徐立新;互联网文本视频过滤技术研究与应用[D];电子科技大学;2010年
- 梁鹏鹏;概率主题模型及其在关联文本分类中的应用研究[D];郑州大学;2011年
- 刘超;基于主题挖掘和覆盖的文本分类研究[D];安徽大学;2011年
- 蔡月红;基于类短语串和半监督学习的短文本分类研究[D];江苏大学;2010年
【稿件标题】:文本聚类算法|一种面向聚类的文本建模方法
【作者单位】:沈阳航空航天大学知识工程研究中心;
【发表期刊期数】:《山西大学学报(自然科学版)》2014年04期
【期刊简介】:0......更多山西大学学报(自然科学版)杂志社(
http://www.400qikan.com/qk/5011/)投稿信息
【版权所有人】:唐晓丽;白宇;张桂平;蔡东风;
更多
自然类论文详细信息:
文本聚类算法|一种面向聚类的文本建模方法
http://www.400qikan.com/lunwen/ziran/22937.html
相关专题:陈丹青 中国实用医刊投稿 《地学前缘》相关期刊
推荐期刊:
中国民族教育综合实践活动研究河池学院学报北京地质辽宁工程技术大学学报大气与环境光学学报常州工程职业技术学院高职研究郑州轻工业学院学报上海调味品河北法学
上一篇:
西北地区干旱的原因|中国西北干旱区极端气温的时空变化特征
下一篇:
异构体|一种新的Bax异构体Baxθ促进细胞凋亡(英文)