论文部分内容阅读
特征选择通过选择一个最优的特征子集降低数据维数,构造一个简洁的分类系统,提高分类预测的准确性,揭示隐藏的潜在模式和规律,得到一个快速、高效的分类器,并使分类结果可视化成为可能。 现有特征选择研究主要着眼于选择最优特征子集所需要的两个主要步骤:特征子集搜索策略和特征子集性能评价准则。基于SVM的特征选择方法研究存在如下问题:如何评价特征的重要性,即如何判断特征对于分类的贡献?如何考虑特征之间的相关性?如何确定最佳的被选择特征数目?如何选择合适的SVM分类器模型、合适的SVM参数?对超高维、小样本的基因数据集进行分类分析时,如何实现基因选择?另外,现有基于SVM的特征选择方法主要基于后向剔除思想,而后向剔除相对于前向选择时间效率较差。 本研究针对基于SVM的特征选择算法研究存在的以上问题,提出分别基于4种不同特征重要性评价准则与SVM的特征选择算法;并针对基因数据集的高维小样本特点,提出了基于SVM分类模型的随机基因选择算法。所取得的主要研究成果包括: 1.提出基于G-score与SVM的适用于任意类分类问题的特征选择算法,所提算法弥补了基于F-score与SVM的特征选择算法只适用于两类分类问题的不足。其中,G-score将F-score特征重要性评价准则由评价两类分类问题的特征区分度推广到可以衡量任意类分类问题的特征区分度;算法的特征搜索策略采用推广的前向顺序搜索策略GSFS(GeneralizedSequentialForwardSearch,GSFS)、推广的前向顺序浮动搜索策略GSFFS(GeneralizedSequentialForwardFloatingSearch,GSFFS),以及推广的后向顺序浮动搜索策略GSBFS(GeneralizedSequentialBackwardFloatingSearch,GSBFS)。UCI机器学习数据库数据集的实验显示:基于G-score与SVM的三种混合特征选择算法可以实现有效的特征选择,其中就特征子集规模来看,基于G-score与SVM的前向顺序浮动特征选择算法效果最佳;但就分类正确率,即分类器的泛化性能来看,相应的前向顺序特征选择算法最优。 2.提出基于D-score与SVM的特征选择算法,该算法避免了基于G-score与SVM的特征选择算法在衡量特征的类间辨别能力大小时,没有考虑不同特征的测量量纲对特征区分度大小的影响问题。UCI机器学习数据库的9个特征选择常用数据集实验测试,以及与相应的基于G-score与SVM特征选择算法的实验比较表明:提出的基于D-score与SVM的特征选择算法所选择的特征具有较好的分类效果,其分类性能优于基于G-score与SVM的特征选择方法,实现了保持数据集辨识能力不变情况下进行维数压缩的目的。基于D-score与SVM的3种混合特征选择算法相比,就特征子集规模来看,前向顺序浮动特征选择算法最好;但就分类器的泛化性能相比,前向顺序特征选择算法具有最好的泛化性能。 3.提出基于DFS(DiscernibilityofFeatureSubsets,DFS)与SVM的特征选择算法,该算法解决了基于G-score与SVM、D-score与SVM的特征选择算法在衡量特征的类间辨别能力大小时候,没有考虑特征之间的相关性对于单个特征的类间辨别能力大小的影响问题。其中,DFS是一种新的特征子集区分度评价方法,通过计算多个特征构成的特征子集的G-score值,判断特征子集的类间区分度大小,考虑了特征子集中特征的联合作用,即特征子集中所有特征对于分类的联合贡献。同时根据特征子集评价方法CFS(CorrelationbasedFeatureSelector,CFS)中Pearson相关系数度量特征相关性的正、负相关之分,提出不区分特征之间的正、负相关,只考虑其是否相关的CFSPabs(CorrelationbasedFeatureSelectorbasedontheabsoluteofPearson’scorrelationcoefficient,CFSPabs)方法。特征搜索策略分别采用经典的顺序前向搜索(SequentialForwardSearch,SFS)、顺序后向搜索(SequentialBackwardSearch,SBS)、顺序前向浮动搜索(SequentialForwardFloatingSearch,SFFS)、顺序后向浮动搜索(SequentialBackwardFloatingSearch,SBFS)4种搜索策略,区别在于在浮动搜索策略中,判断特征加入/剔除应用特征子集的区分度DFS,而浮动剔除/加入特征应用分类器的训练准确率。UCI机器学习数据库中10个经典数据集的5折交叉验证实验表明:提出的基于DFS特征子集评价准则与SVM的特征选择算法是一种有效的特征子集选择方法,该方法所选特征子集的分类性能优于分别基于CFS与SVM、CFSPabs与SVM的特征选择方法;但是就特征子集规模来看,基于CFSPabs与SVM的方法最优。 4.鉴于SVM对于非线性可分问题的最大泛化性能,提出基于SVM分类模型的适用于多类分类问题的特征选择方法SVMRFE(SVMRecursiveFeatureElimination)和SVMRFA(SVMRecursiveFeatureAddition),避免分别基于G-score、D-score和DFS与SVM的特征选择算法在非线性可分问题中有可能误剔除有效区分特征的缺陷;同时克服Guyou的SVM-RFE特征选择算法只适用于两类分类问题的缺陷。UCI机器学习数据库的9个经典数据集的5折交叉验证实验表明:提出的SVMRFA和SVMRFE特征选择算法能在保持或提高分类正确率的前提下,实现有效的特征选择;9个数据集的实验测试,SVMRFA算法在8个数据集上优于SVMRFE算法。实验还证明,对于较低维数据集,该两个特征选择算法的效率差别不大,但是对于维数比较高的数据集进行特征选择时,SVMRFA特征选择算法的效率明显优于SVMRFE算法。 5.针对基因数据集的高维小样本特点,并结合上一研究结论,提出基于SVM分类模型的基因选择算法——SVMRRFA(SVMRecursiveRandom FeatureAddition,SVMRRFA),该算法引入随机思想,针对具体的基因数据集,在每次迭代中同时加入若干个随机数确定的基因。为了减少算法时间开销,提出了简化的SVMRRFA基因选择算法。普林斯顿大学基因表达工程的3个基因数据集实验测试和比较表明:提出的SVMRRFA基因选择算法实现了有效的基因选择,发现了基因数据集的关键区分基因,实现了有效的癌症分类诊断;简化SVMRRFA算法提高了SVMRRFA基因选择算法的分类正确率、特异性和Matthews相关系数;但是对于癌症患者的分类正确率并没有提高。