基于ID3决策树算法的改进研究

来源 :华北水利水电学院 | 被引量 : 0次 | 上传用户:saveflv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现阶段各级各类学校都有自己的课程成绩数据库,这些数据库中存放着大量的学生课程成绩。学校对学生成绩数据的处理一般还停留在简单的数据库管理和查询阶段,不能发挥其应有的作用。   数据挖掘可以从数据库的大量数据中,自动抽取或发现有用的信息。它是一个决策支持过程,是深层次的数据信息分析方法,将它用在学生课程成绩原因分析方面是非常有价值的。   本论文主要把数据挖掘的经典分类技术——决策树技术与中学教育教学管理成绩数据库系统相结合,从中提取出隐藏在数据当中的有用信息,并进行分析,找出影响学生课程成绩的各种因素以及各因素之间的关系,为个性化教学策略提供数据依据,为教育部门提供决策支持,促使教育部门更好地开展教学工作,提高教育教学质量。   本论文介绍了数据挖掘的有关概念及决策树的各种算法,通过对几种较典型的决策树算法进行分析比较,提出一种改进的ID3 算法。该算法的思想是将高等数学中的泰勒公式原理与ID3 算法的属性选择标准——信息熵的求解相结合,对其求解过程进行简化,减小了算法的计算复杂度,提高了算法运行效率,使决策树的生成时间缩短。将简化后的信息熵加权求平均,平衡了每个属性对数据集的不确定程度,使得属性的选择更加合理化。为了解决数据中噪声与孤立点,本论文引入了趋近度,使最终生成的决策树的规模尽可能小,同时又对改进的ID3 算法所生成的决策树进行剪枝,使最终生成的决策树更加简洁。实践证明,改进后的ID3 算法提高了决策树的构建速度,减少了算法的运行时间,克服了原ID3 算法偏向于选择取值较多的属性作为测试属性的缺陷,同时也使决策树在生成过程中规模尽可能小。改进的决策树算法在学生成绩分析中的应用诠释了本论文研究的理论价值和实践价值。   本论文提出的改进算法优化了决策树的性能,表现出极好的分类效果,使决策树的应用更具科学性。
其他文献
随着互联网技术的迅猛发展,网络信息资源呈几何级数增长,如何从海量数据中快速准确的提取有价值的信息显得更加重要。搜索引擎的出现有效的解决了用户检索信息的困难。而中文
随着信息网络的高速发展,越来越多的的、企事业单位也不可抗拒地加入到了信息网络时代中。为了提高工作效率,实现生产自动化或管理水平现代化,电子政务、电子商务、企业信息
计算生物学是当今世界发展最为迅速、最热门的学科之一,计算生物学研究的成果影响着人类在生物进化、基因制药、基因治疗等领域的研究进展。生物学、化学、数学、计算机科学
数据流挖掘目前已成为数据挖掘的热点话题,如挖掘通信领域中的电话记录数据流以期发现潜在的优质客户、挖掘Web上的用户点击数据流、网络监测中的数据包流以期发现可能存在的
海洋环境观测手段的特点是采用多种传感器、仪器及多种观测平台,对海域进行全时空、高密度、高频率的立体观测。这些传感器和仪器种类众多,观测数据的描述繁多,传感器、仪器
随着计算机应用的不断发展,在信息社会中发挥着至关重要的作用。但是软件的生产现状不能令人满意,软件安全事故、软件质量问题、软件扩展问题已经带来了巨大的损失。国内外专家
近年来我国煤矿事故频繁发生,造成重大经济损失和人员伤亡。在诸多影响采矿工程稳定性的因素中,地应力是最重要和最根本的因素之一。目前,我国大多数的煤矿应力监测系统都是
高血压患病率逐年增长,高血压病人的知晓率和治疗率却维持在较低水平,这给高血压的有效控制带来很大困难。目前高血压的诊断和治疗工作还主要由执业医师手工完成,依靠人工智