摘要:阐述了数据挖掘的概念和算法,重点介绍了线性回归算法,基于多元线性回归算法分析了影响大学英语四级的诸多因素。根据数据挖掘思想,收集历史数据并适当加以变换,使用统计分析技术对影响大学英语四级的诸多因素进行分析,得出了大学英语四级成绩与其影响因素之间的线性回归关系,拟合程度较高,可用于四级成绩预测,对学生学习和学校教学管理有很大的指导作用和使用价值。
关键词: 英语四级;数据挖掘;统计分析;线性回归;预测
中图分类号:TP301.6 文献标识码:A 文章编号:1009-3044(2014)03-0452-03
1 概述
近几年,我国高等教育蓬勃发展,中华人民共和国国家统计局最新数据(2012年)显示,我国现有普通高等学校2442所,高校在校生人数2391.3万,其实现在的实际数字要大于统计局2012年的数据。我国2013年毕业生数量699万,2013年号称“史上最难就业季”,而2014年的727万毕业生应该是遇上了“史上最最难就业季”。面对这样的激烈竞争与“史上最难就业季”,用人单位对于人才的录用也更为苛刻,大学英语四级已经成为了很多用人单位的筛选条件。如何才能顺利通过大学英语四级呢?很多在校大学生不清楚怎样能通过四级,很多教师也不知道如何管理以帮助学生通过四级。学生的英语四级成绩到底和哪些因素有着千丝万缕的联系呢?因此,使用数据挖掘技术探索和研究并解决这些问题已经成为部分高校极为重视的教育课题。这对于提高学生自身素质和竞争力,提升就业质量,促进部分高校的发展有一定的理论意义和实用价值。
2 数据挖掘
2.1 数据挖掘概念
数据挖掘(Data Mining, DM)是一个利用各种分析方法与技术,从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。换句话说,数据挖掘就是从数据中挖掘信息或知识,有人称为知识发现(Knowledge Discovery in Database, KDD)。数据挖掘是一门交叉性学科,融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术[1],现已经广泛应用于金融、零售、保险、医药、通讯、电子工程、航空、等诸多领域[2]。CRISP-DM(CRoss-Industry Standard Process for Data Mining,跨行业数据挖掘过程标准)是当今数据挖掘业界通用的、比较流行的标准之一,该标准把数据挖掘过程归纳为六步:(1)业务理解(Business Understanding);(2)数据理解(Data Understanding);(3)数据准备(Data Preparation);(4)建模(Modeling);(5)评估(Evaluation);(6)部署(Deployment)[3]。在建模中要根据不同的业务场景选择不同的建模技术,即选择了不同的数据挖掘算法。
2.2 数据挖掘算法
数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。它分析用户提供的数据,并查找特定类型的模式和趋势,算法使用此分析的结果来定义用于创建挖掘模型的最佳参数,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。大多数数据挖掘算法使用一个或者几个目标函数,并且使用若干搜索方法(如启发式算法、最大最小值法、梯度下降方法、网络推演法等),在数据体中或建立了距离关系的数据空间中获得一个点或一个小区域。数据挖掘算法按照挖掘方式可以分为有教师型和无教师型,也称有监督学习和无监督学习。在有监督学习中,先给出一个教师信号,对训练样本集中的每个输入样本能提供类别标记和分类代价,并寻找能降低总体代价的方向。在无监督学习算法中并没有显式的教师,系统对输入样本自动形成聚类[4]。
从应用角度来讲,数据挖掘算法可以分为以下六类:分类算法、回归算法、聚类分析算法、关联规则、时序和偏差检查算法。该文主要应用回归算法。
线性回归是回归算法的一种,在线性回归中,数据用直线建模。双变量回归将一个随机变量Y(称为响应变量)视为另一个随机变量X(称为预测变量)的线性函数。即:
[Y=α+βX]
其中,Y的方差为常数,α和β是回归系数,分别表示直线在Y轴的截距和斜率。这些系数可以用最小二乘法求解,可以使实际数据与该直线的估计之间的误差达到最小。给定[s]个样本或形如(x1, y1),(x2, y2),... ,(xn, yn)的数据点,回归系数可以用如下公式计算:
[β=j=1s(xi-x)(yi-y)j=1s(xi-x)2]
[α=y-βx]
其中,[x]是x1,x2,... ,xn的平均值,而[y]是y1,y2,…,yn的平均值。
多元回归是线性回归的扩展,设计多个预测变量。相应变量Y可以是一个多维特征向量的线性函数。基于两个预测变量X1和X2的多元回归如下[5]:
[Y=α+β1X1+β2X2]
同样运用最小二乘法求解上面的系数。
3 基于多元线性回归算法的四级成绩分析与预测
其实,影响英语四级成绩的因素有很多,根据多年的工作经验,在此次数据挖掘中选取了4个认为非常重要的因素,进而展开分析。现收集了某校非英语专业75名同学的数据。数据表如下(表1):
3.1 数据说明
1)Y:大学英语四级考试成绩。
2)X1:高考英语成绩。为了使分析具有一定的普适性,分析中对高考英语成绩进行了处理,在选取的数据中,最高分设为100分,因此该字段数据变换公式如下:
变换后=变换前*100/最高分
3)X2:性别。该字段值为男或女,因为数据要参与运算,男用0表示,女用1表示。
相关专题:力学学报 力学学报官网 力学学报英文版 力学哥 应用力学学报 计算力学学报 固体力学学报 工程力学 佘振苏 岩石力学与工程学报 影响经济增长率的因素 坚守道德底线