论文部分内容阅读
集成学习(Ensemble Learning)是一种较新的机器学习范式,它使用多个学习器来解决同一问题,它能够显著地提高学习系统的泛化能力。决策森林作为一种优秀的集成学习方法,在实际中得到了广泛的应用。然而利用决策森林对高维复杂数据进行挖掘过程中,当数据含噪音较多或有用信息所占比例较小时,决策森林算法所产生的决策树质量将严重下降,最终将导致分类精度大大降低。为了有效地解决该问题,本文从特征子空间选择和模型优化两方面入手来改进现有决策森林算法,主要做了以下几个部分的工作:1)给出了决策森林特征子空间选择度量函数。本文针对决策森林分类算法,给出了特征子空间选择度量函数的定义。在此基础上,研究了满足这一定义的四种特征分类信息度量函数,分别是信息增益,增益率,卡方和互信息。2)提出了基于计数的特征窗口决策森林算法。首先给出了一个基于计数的特征子空间选择的决策森林算法的框架,在特征度量部分,选取不同的特征度量方法来进行特征提取。本文选取了四种度量函数在12组数据集上与原始随机森林算法作了对比试验。试验结果证明了该新算法的有效性。3)提出了基于累积的特征窗口决策森林算法。由于在对实际数据进行分类时,往往事先不知道数据的分布特点,所以很难给出一个合理的特征计数阈值,即应该选取多少个特征参与建树。这也成为基于计数的特征窗口决策森林算法有效发挥作用的一个瓶颈。而基于累积的特征窗口决策森林算法却有效地解决了该问题,其只需给出要求参与建树的特征总共所具有的分类信息量是多少即可。这样的机制便会使算法根据数据本身特征分布自动地计算应该选取多少个特征和决定哪些特征参与建树。在这一部分,本文选取了四种度量函数在12组数据集上与原始随机森林算法作了对比试验。试验结果证明了该新算法较原始的随机森林算法有显著的提高。4)提出了双向投票模型选择的决策森林算法。由于数据的高维,海量和含噪音等复杂性将导致所生成决策树质量好坏不一。如果让大量的噪音树来参与分类,势必影响决策森林算法的整体质量。为了取得更好的分类效果,本文提出了基于双向投票进行模型选择的决策森林算法。该算法主要思想是不仅使决策树对数据有投票权,而且反过来数据元组对决策树也有投票权,以进行模型选择。然后在12组数据集上与原始随机森林算法作了对比试验。试验结果证明了该新算法的分类准确度要明显地优于原始随机森林算法。