论文部分内容阅读
现阶段各级各类学校都有自己的课程成绩数据库,这些数据库中存放着大量的学生课程成绩。学校对学生成绩数据的处理一般还停留在简单的数据库管理和查询阶段,不能发挥其应有的作用。
数据挖掘可以从数据库的大量数据中,自动抽取或发现有用的信息。它是一个决策支持过程,是深层次的数据信息分析方法,将它用在学生课程成绩原因分析方面是非常有价值的。
本论文主要把数据挖掘的经典分类技术——决策树技术与中学教育教学管理成绩数据库系统相结合,从中提取出隐藏在数据当中的有用信息,并进行分析,找出影响学生课程成绩的各种因素以及各因素之间的关系,为个性化教学策略提供数据依据,为教育部门提供决策支持,促使教育部门更好地开展教学工作,提高教育教学质量。
本论文介绍了数据挖掘的有关概念及决策树的各种算法,通过对几种较典型的决策树算法进行分析比较,提出一种改进的ID3 算法。该算法的思想是将高等数学中的泰勒公式原理与ID3 算法的属性选择标准——信息熵的求解相结合,对其求解过程进行简化,减小了算法的计算复杂度,提高了算法运行效率,使决策树的生成时间缩短。将简化后的信息熵加权求平均,平衡了每个属性对数据集的不确定程度,使得属性的选择更加合理化。为了解决数据中噪声与孤立点,本论文引入了趋近度,使最终生成的决策树的规模尽可能小,同时又对改进的ID3 算法所生成的决策树进行剪枝,使最终生成的决策树更加简洁。实践证明,改进后的ID3 算法提高了决策树的构建速度,减少了算法的运行时间,克服了原ID3 算法偏向于选择取值较多的属性作为测试属性的缺陷,同时也使决策树在生成过程中规模尽可能小。改进的决策树算法在学生成绩分析中的应用诠释了本论文研究的理论价值和实践价值。
本论文提出的改进算法优化了决策树的性能,表现出极好的分类效果,使决策树的应用更具科学性。