基于SVM的特征选择方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:simetl21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择通过选择一个最优的特征子集降低数据维数,构造一个简洁的分类系统,提高分类预测的准确性,揭示隐藏的潜在模式和规律,得到一个快速、高效的分类器,并使分类结果可视化成为可能。  现有特征选择研究主要着眼于选择最优特征子集所需要的两个主要步骤:特征子集搜索策略和特征子集性能评价准则。基于SVM的特征选择方法研究存在如下问题:如何评价特征的重要性,即如何判断特征对于分类的贡献?如何考虑特征之间的相关性?如何确定最佳的被选择特征数目?如何选择合适的SVM分类器模型、合适的SVM参数?对超高维、小样本的基因数据集进行分类分析时,如何实现基因选择?另外,现有基于SVM的特征选择方法主要基于后向剔除思想,而后向剔除相对于前向选择时间效率较差。  本研究针对基于SVM的特征选择算法研究存在的以上问题,提出分别基于4种不同特征重要性评价准则与SVM的特征选择算法;并针对基因数据集的高维小样本特点,提出了基于SVM分类模型的随机基因选择算法。所取得的主要研究成果包括:  1.提出基于G-score与SVM的适用于任意类分类问题的特征选择算法,所提算法弥补了基于F-score与SVM的特征选择算法只适用于两类分类问题的不足。其中,G-score将F-score特征重要性评价准则由评价两类分类问题的特征区分度推广到可以衡量任意类分类问题的特征区分度;算法的特征搜索策略采用推广的前向顺序搜索策略GSFS(GeneralizedSequentialForwardSearch,GSFS)、推广的前向顺序浮动搜索策略GSFFS(GeneralizedSequentialForwardFloatingSearch,GSFFS),以及推广的后向顺序浮动搜索策略GSBFS(GeneralizedSequentialBackwardFloatingSearch,GSBFS)。UCI机器学习数据库数据集的实验显示:基于G-score与SVM的三种混合特征选择算法可以实现有效的特征选择,其中就特征子集规模来看,基于G-score与SVM的前向顺序浮动特征选择算法效果最佳;但就分类正确率,即分类器的泛化性能来看,相应的前向顺序特征选择算法最优。  2.提出基于D-score与SVM的特征选择算法,该算法避免了基于G-score与SVM的特征选择算法在衡量特征的类间辨别能力大小时,没有考虑不同特征的测量量纲对特征区分度大小的影响问题。UCI机器学习数据库的9个特征选择常用数据集实验测试,以及与相应的基于G-score与SVM特征选择算法的实验比较表明:提出的基于D-score与SVM的特征选择算法所选择的特征具有较好的分类效果,其分类性能优于基于G-score与SVM的特征选择方法,实现了保持数据集辨识能力不变情况下进行维数压缩的目的。基于D-score与SVM的3种混合特征选择算法相比,就特征子集规模来看,前向顺序浮动特征选择算法最好;但就分类器的泛化性能相比,前向顺序特征选择算法具有最好的泛化性能。  3.提出基于DFS(DiscernibilityofFeatureSubsets,DFS)与SVM的特征选择算法,该算法解决了基于G-score与SVM、D-score与SVM的特征选择算法在衡量特征的类间辨别能力大小时候,没有考虑特征之间的相关性对于单个特征的类间辨别能力大小的影响问题。其中,DFS是一种新的特征子集区分度评价方法,通过计算多个特征构成的特征子集的G-score值,判断特征子集的类间区分度大小,考虑了特征子集中特征的联合作用,即特征子集中所有特征对于分类的联合贡献。同时根据特征子集评价方法CFS(CorrelationbasedFeatureSelector,CFS)中Pearson相关系数度量特征相关性的正、负相关之分,提出不区分特征之间的正、负相关,只考虑其是否相关的CFSPabs(CorrelationbasedFeatureSelectorbasedontheabsoluteofPearson’scorrelationcoefficient,CFSPabs)方法。特征搜索策略分别采用经典的顺序前向搜索(SequentialForwardSearch,SFS)、顺序后向搜索(SequentialBackwardSearch,SBS)、顺序前向浮动搜索(SequentialForwardFloatingSearch,SFFS)、顺序后向浮动搜索(SequentialBackwardFloatingSearch,SBFS)4种搜索策略,区别在于在浮动搜索策略中,判断特征加入/剔除应用特征子集的区分度DFS,而浮动剔除/加入特征应用分类器的训练准确率。UCI机器学习数据库中10个经典数据集的5折交叉验证实验表明:提出的基于DFS特征子集评价准则与SVM的特征选择算法是一种有效的特征子集选择方法,该方法所选特征子集的分类性能优于分别基于CFS与SVM、CFSPabs与SVM的特征选择方法;但是就特征子集规模来看,基于CFSPabs与SVM的方法最优。  4.鉴于SVM对于非线性可分问题的最大泛化性能,提出基于SVM分类模型的适用于多类分类问题的特征选择方法SVMRFE(SVMRecursiveFeatureElimination)和SVMRFA(SVMRecursiveFeatureAddition),避免分别基于G-score、D-score和DFS与SVM的特征选择算法在非线性可分问题中有可能误剔除有效区分特征的缺陷;同时克服Guyou的SVM-RFE特征选择算法只适用于两类分类问题的缺陷。UCI机器学习数据库的9个经典数据集的5折交叉验证实验表明:提出的SVMRFA和SVMRFE特征选择算法能在保持或提高分类正确率的前提下,实现有效的特征选择;9个数据集的实验测试,SVMRFA算法在8个数据集上优于SVMRFE算法。实验还证明,对于较低维数据集,该两个特征选择算法的效率差别不大,但是对于维数比较高的数据集进行特征选择时,SVMRFA特征选择算法的效率明显优于SVMRFE算法。  5.针对基因数据集的高维小样本特点,并结合上一研究结论,提出基于SVM分类模型的基因选择算法——SVMRRFA(SVMRecursiveRandom FeatureAddition,SVMRRFA),该算法引入随机思想,针对具体的基因数据集,在每次迭代中同时加入若干个随机数确定的基因。为了减少算法时间开销,提出了简化的SVMRRFA基因选择算法。普林斯顿大学基因表达工程的3个基因数据集实验测试和比较表明:提出的SVMRRFA基因选择算法实现了有效的基因选择,发现了基因数据集的关键区分基因,实现了有效的癌症分类诊断;简化SVMRRFA算法提高了SVMRRFA基因选择算法的分类正确率、特异性和Matthews相关系数;但是对于癌症患者的分类正确率并没有提高。
其他文献
随着通信技术与信息技术的快速发展,人们可以享用到的网络服务更加多元化,人们可以随时随地使用不同的接入方式上网,同时,人们的终端变得更加智能和多样化,多媒体的应用也越
数字波束形成是阵列信号处理领域中的一项关键技术。传统的常规波束形成算法在小快拍低信噪比的情况下波束会发生畸变,主瓣不能准确指向期望信号,致使输出信干噪比降低,所以这些
随着手写识别技术的发展,汉字、英文等文字都成功实现了这项技术。而维吾尔文手写识别仅仅出于起步阶段,仍有很大的发展空间。本文针对维吾尔文单字符的手写识别,研究了手写体维
开关柜具有裸露高压、大电流、满负荷等特点,若无法及时检测柜内电气联结点故障,会引发局部温升超标,对开关柜的安全运行构成严重威胁。传统测温采用人工巡查,这种故障检测方式效
2009年3月,中国移动与中广传播集团签订TD+CMMB合作协议,确定CMMB终端与TD终端进行合作捆绑。随着当前移动通信领域的发展,移动设备微型化、智能化,用户需求多样化,芯片高度集成化
随着数码产品的普及以及模式识别技术的发展,笑脸识别技术受到了人们普遍的重视。而且,笑脸表情作为人脸表情中重要的一种,对它的有效识别能够在一定程度上推动表情识别的发展。
本文使用认知无线电技术,保证认知用户在不对授权用户产生严重干扰的前提下使用授权用户的频段。本文围绕认知无线电在MIMO系统中的使用,从两个不同的角度实现认知干扰对准消除