论文部分内容阅读
近年来,随着机器学习和数据挖掘等应用领域的扩展,人们遇到越来越多的不平衡小样本数据。所谓的不平衡小样本数据是指相对样本维度而言,样本数目过少,而且不同类别的样本数目及分布相差很多。高维小样本数据给传统的机器学习算法带来很大的挑战,模型建立所需的时间和空间资源要求很高。此外样本的不平衡性给传统模式识别算法也带来了很大的困难。传统的学习算法都是建立在平衡数据集的基础之上的,当样本出现不平衡时,这些学习算法的性能往往会明显下降。本文主要针对样本出现不平衡性和小样本性的学习问题展开研究:首先,对于小样本数据本文采用经典的特征提取算法先对数据进行特征提取,将维度降低。对于特征提取算法某些参数的设置问题,本文摒弃现有的根据经验值设定的方法,引入粒子群优化算法来实现对参数的自动寻优。特征提取算法往往有线性、非线性、有监督和无监督之分,本文提出在决策级将不同的特征提取算法进行融合,充分利用各特征提取算法的优点,扬长避短。对于特征提取算法的评估方法,本文采用特征提取结果在支持向量机分类器上获得的识别率作为评估算法的指标。然后,在数据层面上对不平衡数据集进行平衡化处理,包含对正例样本的过抽样处理以及对负例样本的欠抽样处理。利用改进的SMOTE算法对正例样本进行过抽样处理,人工注入样本使得正例样本的数目增加。在负例样本的欠抽样处理中,本文将谱聚类算法引入其中,选取负例样本的子集以使数据集在正负例样本的数目上趋于平衡。最后,在算法层面上对样本的不平衡性进行处理,通过引入基于权重的支持向量机和AdaBoost算法对分类算法进行改进。算法训练出多个基分类器,然后将多个基分类器组合成强分类器。对于不平衡数据集上建立的分类器的性能度量指标,本文不采用通常的识别率作为算法的性能度量值,而是采用ROC曲线下方的面积AUC值,以兼顾正负例样本的分类效果。这样,通过数据层面和算法层面的双重处理,就可以应用传统的学习方法来对不平衡数据集进行挖掘有用信息并加以分析。此外,处理过的不平衡小样本数据集能够利用较少的时间和空间建立模型。最后,在UCI公共数据集和人工数据集上分别对文中算法的有效性进行了验证。本文的方法能在一定程度上解决小样本性和不平衡性给传统的机器学习算法带来的困难。除此之外,本文中特征提取算法的参数优化方法对于更好地挖掘原数据中的信息具有重要意义。