论文部分内容阅读
Web2.0时代背景下信息技术迅速革新,海量的数据积累使得数据挖掘技术得到空前发展。基于数据挖掘的应用已经延伸至多个领域,教育数据挖掘就是其中一个重要分支。如何合理运用数据挖掘技术解决高校学生管理和教育教学中存在的问题成为教育领域的研究重点,因此,利用数据挖掘技术构建合理的学生留级预测体系在高校教学改革中有着举足轻重的地位,极具学术价值和现实指导意义。本文的主要工作如下:选取兰州某高校学生历史成绩、学生的网络日志和入学基本情况三种类型的数据进行分析与研究。经过数据的清洗、去噪和转换等预处理工作,整理获得学生历史成绩表、学生网络日志表和学生基本信息表,并计算表中字段与留级的相关性。结果表明:历史成绩中的挂科数、挂科率和挂科学分与留级的相关性较高,而网络日志行为数据和学生入学基本情况与学生留级的相关性总体较低,但是入学基本信息中的高考成绩与留级的相关性较高。根据学生大一的历史成绩、学生的网络日志和入学基本情况三种类型数据预测未来2-3年是否存在留级的情况。构建了基于朴素贝叶斯、逻辑回归、决策树和BP神经网络的四个预测模型,首先仅用历史成绩数据对留级进行预测,接着增加网络行为数据和入学基本信息,选取多种不同的特征组合进行留级预测。通过精确率(Precision)、召回率(recall)和F1-Measure三个评价指标对不同预测模型的不同特征组合的预测结果进行评价。结果表明:仅用历史成绩进行预测,BP神经网络的预测结果优于其他三个模型,精确率达到了71%,召回率达到了84%。进一步结合特征选择并筛选不同的特征进行预测,模型的预测能力进一步提升,其中BP网络的预测结果最好,精确率达到了83%召回率达到了90%。随着数据源的扩大,BP神经网络预测效果呈现下降趋势。为了进一步优化预测结果,考虑到遗传算法的全局搜索最优解的优势可以改善BP神经网络算法容易陷入局部最优的缺陷,构建了基于遗传算法和BP神经网络的GABP留级预测混合模型。结果表明:GABP模型的精确率达到了82%,综合评价精确率和召回率指标值达到了86%,可以更有效地对具有留级风险的学生进行预测。