论文部分内容阅读
虽然极端学习机能够在极短的时间内获得更优的泛化性能,但因其输入层权值和隐单元阈值是随机选取的,从而使极端学习机的泛化性能受到影响。相对于单个分类器,集成分类器具有更优的泛化性能和稳定性。但大多数集成学习在选取成员分类器时未充分考虑成员间的差异度从而导致集成学习性能不高。为了提高集成成员间的差异性,本文提出了一类基于成员相似性的集成极端学习机。该类学习机利用微粒群算法结合成员间相似性对集成成员进行优选。同时,在集成成员优选的基础上提出了两种改进的投票权值集成方法以进一步提高集成系统的性能。最后将该类集成算法应用于Benchmark数据和基因表达谱数据分类,取得了优于传统方法的分类性能。本文的主要工作如下: 1)提出了一类基于微粒群算法和相似性的成员极端学习机选择方法。该方法在备选极端学习机库中,运用微粒群算法优选相似性低的成员学习机组合以增加集成系统的差异度,从而有利于提高集成系统的性能。在多个Benchmark数据集上的实验结果表明,基于相似性选择的集成系统的差异度高于传统的集成系统。 2)提出了两个改进的加权投票集成方法。其一、集成投票权重根据各成员极端学习机在验证集上的识别率来设置,该方法充分考虑了成员学习机的分类能力。其二、集成投票权重通过极小范数最小二乘法来确定,以获取理论上的最优投票权值解。在多个Benchmark数据集上的实验结果表明,基于这两个改进的加权投票集成方法的集成极端学习机比传统集成极端学习机更优的泛化性能、稳定性以及更高的识别率。在基于这两个集成方法的集成学习中,基于极小范数最小二乘法的集成极端学习机具有更优的性能。 3)将基于成员相似性的两种集成极端学习机应用于基因表达谱数据分类。在三个数据集上的实验结果表明,本文提出的集成极端学习机都取得了优于传统集成极端学习机和经典方法的识别精度。