摘要:该文的主要工作是针对我校目前各部门、各院系学生信息没有被有效的集成、不能被很好的共享这一现状,开发一个适应我校新形势下的学生管理信息系统。该系统是一个面向用户、面向网络数据管理的信息数据管理系统,利用数据库管理设计软件实现学生的信息管理,使对学生信息的管理更加容易、提高工作效率、降低管理成本。利用数据挖掘技术提高学院学生信息管理系统的智能决策功能,对学生毕业就业指导工作给以帮助和支持,取得了明显的效果。
关键词:数据挖掘技术;学生信息管理;决策树;C4.5
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)02-0241-03
新疆高职院校的办学层次较多,有成人专科、本科、普通专科、本科,脱产1—2年的教师进修培训等,学生的年历、民族、学历等成分复杂。学院从2009年建立了教务管理对学生学籍、成绩等基本信息进行了收集整理和统计,使教学管理不再是冗杂的数据,而是按照系统进行性操作得到的一条条记录,使复杂管理程序简单化、信息化,提高了教学管理的效率和工作质量。但在学生管理方面,学院采取班级月考核制和操行分学生综合评价制度,大多通过手工计分、评分,学生信息数据没有得到有效充分的利用,论文发表www.400qikan.com在数据管理应用到学生日常管理、在校表现评价方面还是个空白。为了做好学生管理工作,有效的利用现有资源,是学生管理工作科学化、规范化、程序化,促进提高信息处理的速度、正确性。在现有的教务系统上,整理学生信息,理清日常学生管理工作流程流向,使其清晰化、合理化,较早的时间发现学生管理存在的问题,解决问题,提高学生管理工作水平,增强对学生管理工作的预见性,依据数据分析,提高了管理效率。
1 数据挖掘
1.1决策树算法
决策树算法是数据挖掘中较常用的一种预测模型的算法,它对数据自动分类从而构造树形结构模型,对决策树进行分类。它采用信息增益的概念,以确定信息的理论为前提,在最大的信息量的数据库中的字段决定树中的一个节点创建,开始节点是一个结构的根节点,根据字段的不同的值进行树枝的分支。在树分支的过程中,每个分支中的子集交界处重复构建下一层分支。决策树已成为常用的分类工具之一,它是将一个训练文件分成一组通用规则的技术,因为它是在图模型树结构的基础上构建,因此,更容易让人理解。实例实例的集合可以分支成两个或两个以上的子集,子集数的底线是根据测试结果来确定,可构建所有可能分支的子集。决策树分类的数据可以在两个阶段,构建树和修剪树。首先,训练数据来测试函数生成不同的值进行比较分析,选择的一个分支,每个分支继续构建下一层的节点和分支,最终创建一个决策树,然后进行修剪树枝的过程,把决定树转换为分类规则。决策树算法中最基本的算法是ID3算法,随后又在ID3的基础上进行改进,开发了C4.5,C5.0,SLIQ,SPRINT等算法。决策树算法的优点有容易学习,便于使用,分类速度较快,精度较高,适用于大规模的数据处理和知识发现系统中。
1.2 数据挖掘的步骤
数据挖掘是复杂的多个步骤相互连接多阶段进行数据传输的过程。这些工作包括以下四个阶段。首先是对挖掘对象选择,其次对数据进行预处理,再次进行数据挖掘,最后对数据挖掘出的规则进行分析和取舍。下面对数据挖掘过程进行具体说明:
1.2.1选择挖掘对象
这个阶段的主要目标是以确定它是否符合数据挖掘的需要,达到解决客户提出的问题的要求,理清哪些数据需要来自客户,尽可能多渠道的获取支持数据挖掘的数据源,最后,确定挖掘对象,预测评估数据挖掘的结果。
1.2.2 数据预处理
这一阶段主要是合理的构建数据库的结构、内容等,为数据挖掘提供高质量的数据输入。它包括数据选择、数据预处理和数据转换阶段。数据选择阶段主要工作室将多个文件或多个数据库中的原始数据进行合并和处理,设计者理解、获取数据信息的相关知识,搜集和选取数据挖掘的目标数据,建立数据仓库。数据预处理阶段是要整合与查核数据,其主要任务是对数据进行清洗充实等,清理错误、去除噪声和与挖掘目标无关的数据,清除空白数据域和重复记录,使数据符合挖掘的要求,为下一步分析做准备。数据转换阶段的主要任务是对数据不同格式数据转换和各种数据的统一汇总,将数据进行编码,从数据库中不同的字段属性转换成编码形式,方便搜索。
1.2.3实际数据挖掘工作
这一阶段是数据挖掘过程的重要阶段,它主要任务是开发模型与假设,采用各种挖掘方法和挖掘模式对数据进行处理,发现潜在的、有用的规则等。它包括如何产生假设,选择合适的方法,挖掘知识的操作以及验证发现的知识。
1.2.4结果分析与表示
这一阶段属于总结收尾阶段,主要工作就让客户从数据挖掘提取出知识进行评价分析,把最需要的、最有价值的信息总结归纳,测试模型并检测数据挖掘结果,利用数据挖掘获得的知识来解决最初客户所提出的问题。最后,解释与使用数据模型,利用各种可视化技术再现结构使之更容易方便客户使用。
2 C4.5算法
C4.5算法采用了信息增益率作为对选择分支属性,当计算出每个属性增益率后,进行比较,选择最大的属性作为分支决策属性,通过每一个取值建立节点。信息增益率表示了有分支产生的有用的信息的比率,因此这个值越大,分支包含的有用信息越多。事实说明,采用信息增益率比采用信息增益更好,它有效的解决了ID3算法选择取值多的属性作为测试属性的问题。
C4.5算法的整个过程是递归过程,停止于没有新的节点出现为止。C4.5算法不仅可以处理连续数值的属性,而且可以对定性属性实现一次分裂,对定量属性进行多次分裂,当数据缺失时,用表示缺失值。当进行测试节点时,可以删除节点的多余参数。据于以上功能,C4.5算法具有简单、高效,结果可靠等优点。
3 依据C4.5算法构造学生就业信息分析模型
3.1分析目的
本课题收集了2008级维、汉、哈三种语系的毕业生数据,提取毕业生数据库,因此分院的毕业生去向在南北疆及乌鲁木齐本地,比较具有代表性。以此数据作为训练实例数据集,具有普遍的意义。旨在构建一个学生就业信息数据分析模型,找出影响学生就业去向的关键因素,并用于预测。
相关专题: 《电脑知识与技术》相关期刊
推荐期刊: