摘要:考虑到C4.5算法存在的信息增益率计算繁琐问题,提出了一种适合贫困生评定的复杂应用的改进C4.5决策树算法。在C4.5算法的基本原理的基础上,引用Taylor公式简化计算过程,降低了信息增益率的计算量,提高了算法分类速度。详细分析了贫困生认定工作流程,抽取相关信息,运用本文算法分析实验结果表明,该算法在指导高校贫困生认定实际工作中取得显着效果。
关键词:贫困生认定;C4.5算法;Taylor公式
中图分类号:TP311.5 文献标识码:A 文章编号:1007-9599 (2013) 02-0000-04
1 引言
数据挖掘就是近年来比较热的研究领域,简单来说,数据挖掘就是从大量数据中高效地抽取有用信息的过程[1,2]。在数据挖掘技术中,应用最广的分类技术可以说是决策树算法,它是通过决策树归纳学习产生规则,从规则中抽取知识。经过国内外研究者的不懈努力,目前存在很多构造决策树的方法,其中最具有影响力的是众所周知的ID3算法[3],其核心思想是用信息增益作为选择属性的标准,并且是在决策树上的各个结点上进行测验。随后,ID3的改进版C4.5算法[4]被提出,它则是计算每个属性的信息增益率,然后选择具有最大信息增益率的属性作为节点属性。但是在信息增益率的计算过程中,无疑会涉及到复杂函数和库函数,所以会延长决策树的构造时间。因此,需要寻找一个有效的属性选择方法,减少计算量,改善决策树的效率,从而更便捷地解决实际问题。
近年来,国家和政府对教育事业施以越来越多的重视,特别是高等教育。在高等教育事业飞速发展的同时,也造成了高校在校生不断攀升,高校的收费仍是大多数家庭所关心的问题。国家一直高度重视贫困生的资助工作,制定了一系列资助政策和措施,初步形成了贫困资助体系[5,6],建立“奖、助、补、贷、减”相结合的资助体系。但是我国贫困生资助体系还不完善,资助资源分配还不够优化,准确进行贫困生资格认定就成了资助工作中的最关键环节。在此背景下,本文将引用贫困生信息数据,结合决策树算法进行有效分类。
2 C4.5算法简介
4 实验应用
目前普遍的贫困生认定方法[8,10],学生需提交家庭所在地的乡、镇或更高级别民政部门加盖公章的经济情况证明材料,然后学校根据这些资料通过固定的途径和方式进行认定和分类,在工作方法上较为被动。在目前手工方式进行贫困生认定效率低的情况下,将决策树分类技术应用于贫困认定中,无疑是非常有益的。我们对文学院2006级48个学生学年的信息建立数据表,进行分析和处理,通过数据清洗、转换、数据集成,去掉数据集中不相关的信息。将3个贫困种类(特困、困难、一般困难)中的特困和困难合并为一类,数据最终分类为两类—一般困难和特困。部分数据见表1。
表中有48条记录,随机抽取2/3即32条数据作为算法的训练集,其余1/3即16个数据以后作为测试集。其中正例(特困)为24个,反例(一般贫困)为16个。用改进的C4.5算法对表中的数据做计算。
同理可计算出其他属性的信息增益率。计算完成后,选择具有最大信息增益率的属性父母情况或者经济情况作为分裂节点。循环递归后,即可得到如图的决策树(部分)。
5 结束语
C4.5算法是一种经典的决策树算法,但在计算属性信息增益率时大量用到对数运算,耗时较多。本文对C4.5算法的改进极大地减少了计算量,使得计算属性信息增益率时只用到加减乘除运算,完全不用对数运算,并通过实验验证了改进算法的有效性、合理性等。当然文章只考虑改进了分类效率,在分类准确度上还没有考虑进一步提高。在实际领域中,改进的C4.5算法也得到了应用。
参考文献:
[1]SAFAVIAN S R,LANDGREBE D.A survey of decision tree classifier methodology[J].IEEE Trans On Systems Man and Cyber_netics,1991,21(3):660-674.
[2]Han Jiawei,Micheline K.数据挖掘:概念与技术TP274[M].范明,孟小峰.北京:机械工业出版社,2001:70-218.
[3]Quinlan J R.C4.5 Programs for machine learning Morgan Kauffman[J].1993.
[4]周剑锋,阳爱民.基于改进的C4.5算法的网络流量分类方法[J].计算机工程与应用,2012(5):71-75.
[5]杨晓慧.高校家庭经济困难学生认定模式的思考与实践[J].思想理论教育,2009,11:79-82.
[6]韩俊江,郭晖艳.我国高校贫困大学生求助政策探析[J].教育理论与实践,2012(22):25-27.
[7]王鹏.数据挖掘在高校困难生认定中的应用研究[D].东北师范大学硕士学位论文,2011.
[8]毕鹤霞.国内外高校贫困生认定与研究述评[J].比较教育研究,2009(1):62-66.
[9]刘善槐,邬志辉.高校贫困生评价体系与界定模型研究[J].计算机系统应用,2009,2:53-56.
[10]杨金保.基于模糊综合评价的高校贫困生认定方法研究[J].佳木斯大学社会科学学报,2010,28(4):136-138.
[基金项目]湖南省自然科学基金项目(12JJ5027)
相关专题:教学论文发表 食品质量安全管理制度 《计算机光盘软件与应用》相关期刊
推荐期刊: