论文部分内容阅读
高维小样本数据在实际应用中相当普遍,例如自然语言处理中的文本数据、计算机视觉中的图像数据、生物信息学中的基因表达谱数据等,给现有的挖掘和学习算法带来了巨大的挑战。随着数据维度的急剧增加,会产生大量的无关以及冗余信息,这些信息可能极大降低机器学习算法的性能,增加计算复杂度,造成“维数灾难”以及“过拟合”问题。特征选择是解决高维小样本问题的一种有效手段,它可以去除大量不相关和冗余的特征,寻找与分类任务强相关的特征子集,从而减少算法运行时间,提高算法精度。因此,开展高维小样本数据环境下的特征选择方法研究具有重要的研究与应用价值。本文选择真实的基因表达谱数据作为具体实验对象,将特征选择算法应用于疾病分类问题中,并把分类结果的好坏作为我们特征选择算法的评价指标之—围绕高维小样本的特征选择问题,本文开展了一系列的研究工作,主要研究成果包括以下几个方面:(1)针对高维小样本数据会导致“维数灾难”的问题,我们提出一种嵌入特征选择方法K-split Lasso来降维,提高分类模型的精度,解决计算复杂度高的问题。K-split Lasso是基于经典的Lasso方法提出的,其基本思想是将数据集平均划分为K份,分别使用Lasso方法对每份进行特征选择,而后将选择出来的每份特征子集合并,重新进行特征选择,从而得到最终的特征子集。实验结果表明K-split Lasso算法提高了模型的分类精度,在一定程度上解决了“维数灾难”问题。(2)针对高维小样本数据会导致“过拟合”问题,我们结合过滤方法和嵌入方法的优点,并在此基础上提出一种新的混合特征选择方法GSIL,目的是从高维数据中选出具有强类别区分能力的特征子集,解决“过拟合”问题。GSIL方法分为两层,第一层采用信噪比指标衡量特征的重要性,以过滤无关特征;第二层采用改进的Lasso方法(Iterative Lasso)进行冗余特征的剔除。实验结果表明,GSIL算法能够有效提高分类模型的精度,减少了冗余特征,解决了“过拟合”问题,通过与已有的一些特征选择方法进行了分析比较,也验证了GSIL方法的可行性和有效性。(3)针对高维小样本数据会造成特征选择算法的不稳定性,我们利用集成学习方法来提高分类模型的预测能力以及特征选择的稳定性。考虑到目前已经提出的大多特征选择方法仅根据区分能力选择单个特征子集,虽然这些子集可以在一定程度上提高学习模型的性能,但是由于单个子集包含的信息量有限,会导致特征选择算法的不稳定性。因此,本文提出一种基于相关性的集成特征选择算法ECGS-RG,生成多个有效的特征子集来弥补单个子集信息量的不足,提高特征选择的稳定性,该方法主要利用信息度量标准和Approximate Markov blanket技术作为评估特征与已选特征子集之间相关性的指标。实验结果表明ECGS-RG集成特征选择算法的性能以及稳定性在多数情况下均优于只选择单个特征子集的方法。