自顶向下决策树增量剪枝方法研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:eric2751
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策树学习作为机器学习的一个重要分支,目前已经成功应用于多个领域之中。但是由于有限样本学习自身的不足,使得在决策树学习过程中容易出现过度拟合现象,严重影响了决策树学习的效果。为了克服决策树学习中的种种缺陷,一般采用决策树剪枝算法作为决策树学习算法的后续步骤对生成的决策树进行优化。目前常用的决策树剪枝算法大部分基于统计学分析。由于具有较少样本的训练样例集合统计学特性不明显,容易发生改变,所以导致剪枝策略失效。在总结分析前人工作的基础上,本文提出了一种新的决策树剪枝算法。该算法以增量学习为基础,通过比较确定规则和偶然规则在信息增益变化过程中的差异,最终达到保留必然规则,去除偶然规则的目的。此外为了加快决策树剪枝过程的处理速度,算法定义了自顶向下的搜索次序,避免了对同一决策子树的迭代处理。自顶向下的决策树增量剪枝方法不完全依赖训练样例集合的统计学特性,所以受训练样例数目的影响较小。通过与多种常见决策树剪枝算法的实验比较,证实了算法的正确性和有效性。
其他文献
本文对三类非线性波动方程的Cauchy问题解的性态进行了研究和分析,内容具体安排如下:  第一章介绍了非线性波动方程的研究背景意义、国内外研究状况,简述了本文的主要研究内
随着信息化时代的不断发展,用户对通信服务质量的需求也在不断提高。协同通信技术能够提供有效的分集增益,也被看作是未来通信技术发展的主要方向之一。因此,研究协同通信系
非孤立点与非序列开点是拓扑空间中的两类特殊点。通过在这两类特殊点集上所具有的集族性质,来探讨度量空间的近似紧映像、几乎s映像及其度量化问题。本学位论文主要做了下面三个部分的工作:在第二章,我们引入近似紧映射的定义并研究几乎紧映射、近似紧映射与边缘紧映射之间的基本关系,获得了度量空间的序列覆盖近似紧映像的内在刻画;同时也讨论了度量空间在这几类紧映射下像空间之间的关系。在第三章,我们引入近似s映射的定
学位