本文作者:刘璐;高强;刘衍珩;孙鑫;成功正常投稿发表论文到《计算机工程》2014年01期,引用请注明来源400期刊网!
【摘要】:实例选择能有效移除数据中的噪声和冗余数据,但现有方法难以在提高泛化能力的同时实现约简。针对该问题,提出一种冗余实例对消除算法用于实例选择。给出最近同类实例对的概念,计算数据集中存在的最近同类实例对,并移除满足条件的实例,在11个不同数据集上进行的仿真实验结果表明,经过该算法处理后的数据集在分类准确率和存储压缩率上较原始样本集有明显提升。对比剪辑最近邻规则算法,该算法能够在保持分类准确率的同时提高平均存储压缩率35%以上,并完整保留原始样本集的数据分布特征,在分类准确率和存储压缩率上取得折中。
【论文正文预览】:1概述在机器学习中,数据简化[1]是数据预处理的重要手段之一,通过简化达到2个目的:(1)减小数据规模来降低存储空间;(2)移除数据中的噪声数据来提高数据分类准确率。特征选择[2]和实例选择[3]是常用的2种数据简化方法,其中前者是减少实例属性的个数,即通过特征选择算法达到数据
【文章分类号】:TP181
【稿件关键词】:实例选择最近同类实例对k最近邻剪辑最近邻规则算法数据约简机器学习
【参考文献】:
- 刘应东;牛惠民;;基于k-最近邻图的小样本KNN分类算法[J];计算机工程;2011年09期
- 贾瑞玉;刘范范;潘雯雯;王伟东;;基于MapReduce模型的并行量子进化算法[J];计算机工程;2012年08期
- 张莉;郭军;;基于边界样本的训练样本选择方法[J];北京邮电大学学报;2006年04期
- 杨金福;宋敏;李明爱;;一种新的基于距离加权的模板约简K近邻算法[J];电子与信息学报;2011年10期
- 李正欣;赵林度;;基于SMOTEBoost的非均衡数据集SVM分类器[J];系统工程;2008年05期
- 周宏威;孙丽萍;包文泉;李奔亮;;特高压输电线路周围三维电场并行计算[J];电机与控制学报;2013年12期
- 刘春荣;吴博;;一种改进的迭代样本挑选算法[J];河北大学学报(自然科学版);2009年06期
- 王兴起,孔繁胜;容忍噪音的特征子集选择算法研究[J];计算机研究与发展;2002年12期
- 张莉;陈恭和;;入侵检测系统中训练样本集的构造方法[J];计算机工程与应用;2006年28期
- 廖志芳;樊晓平;陈宇宙;廖志宁;瞿志华;;大肠癌诊断数据分类新算法研究[J];计算机工程与应用;2008年20期
- 翟俊海;李胜杰;王熙照;;基于粗糙集技术的压缩近邻规则[J];计算机科学;2012年02期
- 刘应东;孙秉珍;;基于元胞自动机的小样本集分类算法[J];计算机工程;2012年07期
- 樊晓平;廖志芳;陈宇宙;瞿志华;;大肠癌组织自体荧光光谱数据处理新方法研究[A];第二十六届中国控制会议论文集[C];2007年
- ;A Boundary based Classifier Combination Method[A];2009中国控制与决策会议论文集(3)[C];2009年
- ;COLLABORATIVE FILTERING RECOMMENDATION ALGORITHM BASED ON LOOK-AHEAD SELECTIVE SAMPLING[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
- 桑永胜;空间数据分析的神经计算方法[D];电子科技大学;2010年
- 李定;在线学习(WBL)服务质量评价与改进研究[D];电子科技大学;2011年
- 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
- 徐芳;航空影像分割的支持向量机方法[D];武汉大学;2004年
- 罗可;数据库中数据挖掘理论方法及应用研究[D];湖南大学;2005年
- 陈伟;数据清理关键技术及其软件平台的研究与应用[D];南京航空航天大学;2005年
- 朱永宣;基于模式识别的入侵检测关键技术研究[D];北京邮电大学;2006年
- 贾彩燕;关联规则挖掘的取样复杂性分析[D];中国科学院研究生院(计算技术研究所);2004年
- 徐志强;贯通线故障定位的区间算法研究[D];北京交通大学;2008年
- 姜文瀚;模式识别中的样本选择研究及其应用[D];南京理工大学;2008年
- 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
- 陈红;聚类技术及其应用研究[D];福建师范大学;2010年
- 张晓;基于粗糙集的样本选择方法研究[D];华北电力大学(北京);2011年
- 章超;模式分类中数据选择方法的研究[D];西华大学;2010年
- 韩光辉;基于欧式距离的实例选择算法研究[D];河北大学;2011年
- 范彦方;SFL算法在实例选择中的应用[D];河北大学;2011年
- 杨静;电子商务中个性化推荐模型的研究[D];天津师范大学;2006年
- 李金宇;基于SNMP的网络信息采集系统的研究[D];吉林大学;2008年
- 赵春(王莹);多分类器融合系统的研究[D];福建师范大学;2008年
- 唐武;惰性学习中实例选择研究与应用[D];哈尔滨工业大学;2007年
- 苏映雪;付耀文;;基于KNN算法的组合式非搜索特征选择算法[J];计算机工程;2007年18期
- 孙荣宗;苗夺谦;卫志华;李文;;基于粗糙集的快速KNN文本分类算法[J];计算机工程;2010年24期
- 陈全;邓倩妮;;云计算及其关键技术[J];计算机应用;2009年09期
- 熊忠阳;杨营辉;张玉芳;;基于密度的kNN分类器训练样本裁剪方法的改进[J];计算机应用;2010年03期
- 游晓明;刘升;帅典勋;;并行量子进化算法的研究与实现[J];计算机应用与软件;2008年05期
- 钱洁;郑建国;张超群;王翔;阎瑞霞;;量子进化算法研究现状综述[J];控制与决策;2011年03期
- 谢桂兰;罗省贤;;基于Hadoop MapReduce模型的应用研究[J];微型机与应用;2010年08期
- 申爱华,陈燕;一种基于粗糙集的数据约简改进算法[J];大连海事大学学报;2004年01期
- 韩影,王玉敏,王铭伟;基于粗集和格机数据约简的原型系统[J];吉林大学学报(理学版);2003年03期
- 赵连胜,行飞;数据挖掘的任务、对象和方法[J];内蒙古大学学报(自然科学版);2002年02期
- 于海涛;Rough集理论在数据约简中的应用[J];安徽教育学院学报;2004年03期
- 张学明,施法中;基于属性集等价类划分的数据约简[J];北京航空航天大学学报;2001年03期
- 李炜,谢刚,谢克明;一种改进型的粗糙-神经网络PID控制器设计[J];太原理工大学学报;2004年03期
- 胡涛,杨建军,高冠新,赖朝辉;基于ROUGH集理论的装备费用效能评估方法研究[J];科技进步与对策;2005年02期
- 梁铁柱,李建成;入侵检测中的人工智能方法研究[J];计算机工程与科学;2002年04期
- 胡波;聚类方法在警报数据分类与约简中的应用[J];泰山学院学报;2003年03期
- 何友全,肖建,黄碧霞,熊启军;用于铁道牵引供电系统故障诊断的数据仓库挖掘技术[J];计算机工程;2004年20期
- 吴军基;盛琪;杨伟;张俊芳;;基于模糊支持向量机的电力系统暂态稳定评估[A];2006中国电力系统保护与控制学术研讨会论文集[C];2006年
- 张建锦;刘小霞;;密度偏差抽样及其在海量数据挖掘中的应用[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
- 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论建立中老年肺炎中医症候诊断标准[A];第二十九届中国控制会议论文集[C];2010年
- 王云峰;李战明;袁占亭;万维汉;;基于RBF和RS理论的磨矿分级系统模型(英文)[A];2009年中国智能自动化会议论文集(第一分册)[C];2009年
- 陶志;许宝栋;汪定伟;;并行遗传算法在粗糙集属性约简中的应用[A];2004中国控制与决策学术年会论文集[C];2004年
- 杨慧中;邵信光;石晨曦;;一种改进的支持向量回归机启发式算法[A];2005中国控制与决策学术年会论文集(上)[C];2005年
- 王桂芹;黄道;;数据预处理技术研究[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
- 刘世岳;李珩;张俐;姚天顺;;Co-training机器学习方法在中文组块识别中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
- 张辉;钱宗才;屈景辉;刘敬华;;基于粗糙集理论的知识获取研究及应用[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(上)[C];2003年
- 本报记者 沈则瑾;这是我的生活理念[N];经济日报;2009年
- 蔡伯根;低成本列控系统的列车组合定位理论与方法[D];北京交通大学;2010年
- 傅明;基于Web的空间数据挖掘研究[D];中南大学;2004年
- 张守志;Rough集中若干问题的研究[D];复旦大学;2004年
- 余小高;电子商务环境中分布式数据挖掘的研究[D];武汉理工大学;2007年
- 朱永宣;基于模式识别的入侵检测关键技术研究[D];北京邮电大学;2006年
- 叶施仁;海量数据约简与分类研究[D];中国科学院研究生院(计算技术研究所);2001年
- 李立奇;rFN/CDH的亚细胞位点预测及基于LbL技术的rFN/CDH仿生界面的构建及初步评价[D];第三军医大学;2012年
- 周帆;传感器网络中高效移动物体追踪研究[D];电子科技大学;2013年
- 邓大勇;基于粗糙集的数据约简及粗糙集扩展模型的研究[D];北京交通大学;2007年
- 彭涛;基于特征和实例的海量数据约简方法研究[D];华中科技大学;2011年
- 刘璐;机器学习中实例选择算法的研究[D];吉林大学;2013年
- 常建平;基于粒子群优化的网络攻击行为数据约简建模[D];吉林大学;2013年
- 钟玮珂;数据约简效果的评价方法研究[D];华中科技大学;2012年
- 闫志敏;基于流形学习的数据约简方法研究与应用[D];山东师范大学;2012年
- 宋雪飞;基于粗集理论值约简的数据挖掘系统[D];长春理工大学;2002年
- 常海欣;基于Rough集理论的板材成形智能化控制神经网络识别模型研究[D];燕山大学;2004年
- 李祥亮;一种基于张量场的数据约简方法及应用研究[D];苏州大学;2009年
- 何建军;基于粗糙集理论的粮食经营信息挖掘模型研究[D];吉林大学;2005年
- 马煜;微阵列数据的聚类算法研究[D];西北大学;2006年
- 季长冰;针对贝叶斯分类器的数据质量的定量分析研究[D];北京交通大学;2008年
【稿件标题】:【决策树算法实例范文】基于冗余实例对消除算法的实例选择
【作者单位】:吉林大学计算机科学与技术学院;
【发表期刊期数】:《
计算机工程》2014年01期
【期刊简介】:《计算机工程》杂志是由中华人民共和国新闻出版总署、正式批准公开发行的优秀期刊,计算机工程杂志具有正规的双刊号,其中国内统一刊号:CN31-1289/TP,国际刊号:ISSN1000-3428。计算机工程杂志社由中国电子科技集团公司主管、主办,本刊为月刊。自创刊以来......更多
计算机工程杂志社(
http://www.400qikan.com/qk/6013/)投稿信息
【版权所有人】:刘璐;高强;刘衍珩;孙鑫;
更多
科技类论文详细信息:
【决策树算法实例范文】基于冗余实例对消除算法的实例选择
http://www.400qikan.com/lunwen/keji/18002.html
相关专题:债务重组的税务处理 材料失效分析 《计算机工程》相关期刊
推荐期刊:
音乐时空西南金融郭沫若学刊浙江农林大学学报承德医学院学报乙烯工业四川政报河北医药西部林业科学史学史研究
上一篇:
[问答系统 php论文]基于VSM和LDA模型的FAQ问答系统
下一篇:
[儿童语言发展论文]Ada语言的发展