决策森林的子空间选择和集成优化

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wffgwffg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成学习(Ensemble Learning)是一种较新的机器学习范式,它使用多个学习器来解决同一问题,它能够显著地提高学习系统的泛化能力。决策森林作为一种优秀的集成学习方法,在实际中得到了广泛的应用。然而利用决策森林对高维复杂数据进行挖掘过程中,当数据含噪音较多或有用信息所占比例较小时,决策森林算法所产生的决策树质量将严重下降,最终将导致分类精度大大降低。为了有效地解决该问题,本文从特征子空间选择和模型优化两方面入手来改进现有决策森林算法,主要做了以下几个部分的工作:1)给出了决策森林特征子空间选择度量函数。本文针对决策森林分类算法,给出了特征子空间选择度量函数的定义。在此基础上,研究了满足这一定义的四种特征分类信息度量函数,分别是信息增益,增益率,卡方和互信息。2)提出了基于计数的特征窗口决策森林算法。首先给出了一个基于计数的特征子空间选择的决策森林算法的框架,在特征度量部分,选取不同的特征度量方法来进行特征提取。本文选取了四种度量函数在12组数据集上与原始随机森林算法作了对比试验。试验结果证明了该新算法的有效性。3)提出了基于累积的特征窗口决策森林算法。由于在对实际数据进行分类时,往往事先不知道数据的分布特点,所以很难给出一个合理的特征计数阈值,即应该选取多少个特征参与建树。这也成为基于计数的特征窗口决策森林算法有效发挥作用的一个瓶颈。而基于累积的特征窗口决策森林算法却有效地解决了该问题,其只需给出要求参与建树的特征总共所具有的分类信息量是多少即可。这样的机制便会使算法根据数据本身特征分布自动地计算应该选取多少个特征和决定哪些特征参与建树。在这一部分,本文选取了四种度量函数在12组数据集上与原始随机森林算法作了对比试验。试验结果证明了该新算法较原始的随机森林算法有显著的提高。4)提出了双向投票模型选择的决策森林算法。由于数据的高维,海量和含噪音等复杂性将导致所生成决策树质量好坏不一。如果让大量的噪音树来参与分类,势必影响决策森林算法的整体质量。为了取得更好的分类效果,本文提出了基于双向投票进行模型选择的决策森林算法。该算法主要思想是不仅使决策树对数据有投票权,而且反过来数据元组对决策树也有投票权,以进行模型选择。然后在12组数据集上与原始随机森林算法作了对比试验。试验结果证明了该新算法的分类准确度要明显地优于原始随机森林算法。
其他文献
移动多媒体应用使人们越来越关注如何在移动自组织网络(MANETs)中提供服务质量保证(QOS)的通信。在基于时分多址的MANETs中,需要通过分配时隙来满足流的带宽请求和支持冲突避
在文本中,命名实体是信息的主要载体,用来表达文本的主要内容。而中文命名实体识别是信息抽取、摘要提取、句法分析、开放域问答和机器翻译等应用领域的重要基础,越来越受到
随着国民经济的快速发展,各行业的电气化程度也越来越高。但许多新兴的电气设备在其运行中向电力系统注入了各种电磁干扰,影响和危害了电力系统的安全运行和设备的正常工作。
小麦作为我国三大粮食作物之一,在人民生活和国民经济中占有极为重要的地位。麦蚜是我国各小麦产区的常发性害虫,不仅蚕食小麦营养、影响光合作用,而且还传播麦类病毒,导致小
日前,国务院颁布实施了《全国医疗卫生服务体系规划纲要(2015-2020)》(后文简称《规划纲要》),新规划第一次明确提出“全面建成互联互通的国家、省、市、县四级人口健康信息平台”,
近年来,随着可信计算(Trusted Computing)研究的不断深入,国内外对它的研究已经开始从硬件层面向软件等方向转变。可是面对越来越复杂的各种应用软件,软件危机、错误、缺陷、
目前,我国变电站操作人员的培训主要通过变电站仿真系统进行。设备巡视是仿真系统中必不可少的一项功能,本文设计并实现了一种新型的仿真变电站设备巡视系统。该系统在完成变
环境是动态变化的,MAS中Agent行为也是未知的,要建立领域完备的先验模型几乎不可能,许多领域知识也是在Agent的交互过程中逐步获得的,因此复杂环境下的Agent应当能够根据以前
在组播安全理论的研究中,关于组播数据处理和组密钥管理是研究的热点。人们提出了各种不同的数据处理方法和组密钥分发办法,希望可以设计出能够满足各种不同安全需求的组播安全
WAP事务协议(WTP)作为WAP协议体系结构中的一个重要部分,向会话层提供基于请求响应的分布式事务服务。由于WAP论坛将WAP协议规范以自然语言的形式发布,这样的好处是可读性好,