4)X3:学习态度。该字段数据收集难度较大,因为要对学生有充分的接触和了解,为便于分析,将态度分为三级,分别为认真、一般和较差。由于有三种态度,不能简单的用0、1和2来描述,要用哑变量(Dummy Variable)来代替。方法如下(表2):
表6清晰列出了回归模型中各个预测变量的重要性情况,一般情况下,显著性水平α默认为0.05。在所有的预测变量中,除高考英语成绩0.368(表6中的sig值)大于0.05外,其他预测变量的显著性水平均小于0.05。因此说明,四级成绩和高考英语成绩的关系不是很大,而和其他变量间的关系很大,也就是说,如果把高考英语成绩去掉后重新建模,对拟合优度影响不大。此外,回归模型中含有常量(Constant),是因为考虑到本回归不过原点。
3.3 结果解读
从表6中可以读出各个预测变量的系数,进而得到回归方程:
四级成绩=173.465+0.255×高考英语成绩+20.148×性别+46.859×学习态度1+17.490×学习态度2+3.257×模拟成绩
因此,如果有了新的预测数据就可以按照上面的公式计算,对四级成绩进行预测。当然,随着时间推移、数据积累,需要重新进行回归建模,可能得出的系数也有所不同,然后,再用新的系数进行计算预测。
4 结论
首先指出了英语四级对大学生的重要性,然后阐述了数据挖掘及算法的概念,重点介绍了线性回归算法的原理,最后将数据挖掘的一些理论应用于大学生英语四级影响因素的分析和成绩的预测,调理清晰,分析深入,贴近实际,具有一定的参考价值和指导意义。主要特点在于:(2)数据来源于多年工作的积累,真实有效;(2)它能够对个别字段数据进行巧妙的变换和处理,使得分析更具有说明性和普适性;(3)大学英语四级的分析和预测,对学生、教师以及教学管理人员来说都具有一定的实用价值。当然,并没有将所有的影响因素都考虑在内,如学生家庭情况、英语教师授课情况等,导致了极个别学生的成绩预测值与实际值之间存在一定差距,在今后的实际预测中应尽可能多地将影响因素考虑在内,以缩小误差,不过,那时的模型也会变得相对复杂。
参考文献:
[1] 王光宏,蒋平.数据挖掘综述[J].同济大学学报,2004,32(2):246-247.
[2] 梁第,曲延庆,张铭丽.数据挖掘理论算法综述[J].山东省农业管理干部学院学报,2012,29(5):161.
[3] Shearer C.The CRISP-DM model: The new blueprint for data mining[J].Journal of Data Warehousing,2000, 5(4):13-22.
[4] 梁循.数据挖掘:建模、算法、应用和系统[J].计算机技术与发展,2006,16(1):2.
[5] 范明,孟小峰.数据挖掘:概念与技术[M].北京:机械工业出版社,2007:186-187.
相关专题:力学学报 力学学报官网 力学学报英文版 力学哥 应用力学学报 计算力学学报 固体力学学报 工程力学 佘振苏 岩石力学与工程学报 影响经济增长率的因素 坚守道德底线