本文作者:曹丽君;刘西印;杨燕萍;成功正常投稿发表论文到《商场现代化》2008年09期,引用请注明来源400期刊网!
【摘要】:本文介绍了文本挖掘的研究状况,分析了文本挖掘的基本概念和技术,总结了文本挖掘的过程,特征的建立、特征集的缩减、常用算法、模式的提取与评价等,展望了文本挖掘的未来研究问题和方向。
【论文正文预览】:一、引言随着Internet应用的普及,Web已经发展成为拥有10亿页面的分布式信息空间,而且这个数字仍以每半年翻一番的速度增长。在这些海量数据当中,大部分信息是非结构化的或是半结构化的,蕴含着巨大潜在价值的知识。人们迫切需要能够从Web上快速、有效地发现这些有价值的知识。
【文章分类号】:TP311.13
【稿件关键词】:文本挖掘文本特征词频矩特征集文档建模页面半结构化特征向量展望奇异值分解
【参考文献】:
- 贾同兴;并行处理与情报检索[J];现代图书情报技术;1994年04期
- 刘秉毅;;面向文本数据库管理系统FIMS的文本索引及检索[J];软件;1994年Z1期
- 付小宁,扶育红;DMF5001/5002液晶显示模块的应用[J];国外电子元器件;1996年07期
- 笃烈;如何编辑数字化视频[J];多媒体世界;1996年07期
- 王勤池,乔建行;数字化图书馆检索系统的现状与发展[J];情报科学;1998年06期
- ;IBM扩大商务情报合作[J];每周电脑报;1998年11期
- 马颂德,王珏;智能信息处理与知识挖掘[J];世界科技研究与发展;1999年06期
- 吴健,杜林;信息检索与文本挖掘[J];中国计算机用户;1999年43期
- 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报(自然科学版);2000年03期
- 林鸿飞,姚天顺;基于示例的中文文本过滤模型[J];大连理工大学学报;2000年03期
- 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
- 曲维光;;解决汉语自动分词的方法选择[A];第一届学生计算语言学研讨会论文集[C];2002年
- 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
- 丁秉公;黄昌宁;黄德根;;文本主题识别研究及应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
- 陈林;王晓华;李殿赟;文俊浩;;基于Web的自增模式文本挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
- 陈林;王晓华;李殿赟;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年
- 苏贵洋 ;李建华 ;马颖华;;XML统一文本自动处理描述接口[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
- 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
- 王晔;黄上腾;;基于n-gram相邻字的中文文本特征提取算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
- 王洪俊;施水才;俞士汶;肖诗斌;;跨语言文档对齐[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
- 计算机世界网 孙定;初探知识管理[N];计算机世界;2001年
- 匡钊;批评理论[N];光明日报;2002年
- 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
- 晓阳;多元文化视角下的地域文学研究[N];吉林日报;2004年
- 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
- 古耜;在生命的河床里披沙拣金[N];文学报;2004年
- 唐建清;破碎的城市 破碎的生活[N];文学报;2005年
- 樊发稼 作者系中国社科院文学所研究员;儿童文学生态及其他[N];文艺报;2005年
- 本报记者 于翔;科学“占卜”不是神话[N];网络世界;2005年
- 记者 王馨;74个大项目签约引资320亿[N];南京日报;2006年
- 朱建生;基于知识管理的现代办公信息系统的研究[D];铁道部科学研究院;2002年
- 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
- 梁凤莲;文学的文化见证[D];暨南大学;2004年
- 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
- 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
- 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
- 洪治纲;反叛与超越[D];浙江大学;2005年
- 朱大星;敦煌本《老子》研究[D];浙江大学;2005年
- 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
- 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
【稿件标题】:【python文本挖掘】WEB页面文本挖掘的价值与未来探究
【作者单位】:
【发表期刊期数】:《
商场现代化》2008年09期
【期刊简介】:《商场现代化》杂志由中国商业联合会主管、中商科学技术信息研究所主办。主要探讨国内外现代商业管理经验和介绍现代科技在商业营销管理中的应用,并且刊发精选的国内外现代商业流通领域理论研究成果与现代贸易经济理论的科研论文。其严格化,标准化及权威性在......更多
商场现代化杂志社(
http://www.400qikan.com/qk/945/)投稿信息
【版权所有人】:曹丽君;刘西印;杨燕萍;
更多
绿色建筑论文论文详细信息:
【python文本挖掘】WEB页面文本挖掘的价值与未来探究
http://www.400qikan.com/lunwen/jianzhu/lsjzlw/137685.html
相关专题: 《商场现代化》相关期刊
推荐期刊:
食品与生物技术学报科学与无神论企业天地广东交通风景园林中国地名农村科技开发青岛医药卫生军事历史大自然
上一篇:
【印度落后的原因】我国自主品牌建设落后的原因分析及对策
下一篇:
商号权与商标权的冲突|试论企业名称权与商标权的权利冲突