面向高维小样本数据的分类特征选择算法研究

被引量 : 0次 | 上传用户：easy69

【摘要】

：

高维小样本数据在实际应用中相当普遍,例如自然语言处理中的文本数据、计算机视觉中的图像数据、生物信息学中的基因表达谱数据等,给现有的挖掘和学习算法带来了巨大的挑战。

【作者】

：

张靖

【发表日期】

：

2014年期

【关键词】

：

特征选择高维小样本分类 Lasso 集成学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

高维小样本数据在实际应用中相当普遍,例如自然语言处理中的文本数据、计算机视觉中的图像数据、生物信息学中的基因表达谱数据等,给现有的挖掘和学习算法带来了巨大的挑战。随着数据维度的急剧增加,会产生大量的无关以及冗余信息,这些信息可能极大降低机器学习算法的性能,增加计算复杂度,造成“维数灾难”以及“过拟合”问题。特征选择是解决高维小样本问题的一种有效手段,它可以去除大量不相关和冗余的特征,寻找与分类任务强相关的特征子集,从而减少算法运行时间,提高算法精度。因此,开展高维小样本数据环境下的特征选择方法研究具有重要的研究与应用价值。本文选择真实的基因表达谱数据作为具体实验对象,将特征选择算法应用于疾病分类问题中,并把分类结果的好坏作为我们特征选择算法的评价指标之—围绕高维小样本的特征选择问题,本文开展了一系列的研究工作,主要研究成果包括以下几个方面：(1)针对高维小样本数据会导致“维数灾难”的问题,我们提出一种嵌入特征选择方法K-split Lasso来降维,提高分类模型的精度,解决计算复杂度高的问题。K-split Lasso是基于经典的Lasso方法提出的,其基本思想是将数据集平均划分为K份,分别使用Lasso方法对每份进行特征选择,而后将选择出来的每份特征子集合并,重新进行特征选择,从而得到最终的特征子集。实验结果表明K-split Lasso算法提高了模型的分类精度,在一定程度上解决了“维数灾难”问题。(2)针对高维小样本数据会导致“过拟合”问题,我们结合过滤方法和嵌入方法的优点,并在此基础上提出一种新的混合特征选择方法GSIL,目的是从高维数据中选出具有强类别区分能力的特征子集,解决“过拟合”问题。GSIL方法分为两层,第一层采用信噪比指标衡量特征的重要性,以过滤无关特征；第二层采用改进的Lasso方法(Iterative Lasso)进行冗余特征的剔除。实验结果表明,GSIL算法能够有效提高分类模型的精度,减少了冗余特征,解决了“过拟合”问题,通过与已有的一些特征选择方法进行了分析比较,也验证了GSIL方法的可行性和有效性。(3)针对高维小样本数据会造成特征选择算法的不稳定性,我们利用集成学习方法来提高分类模型的预测能力以及特征选择的稳定性。考虑到目前已经提出的大多特征选择方法仅根据区分能力选择单个特征子集,虽然这些子集可以在一定程度上提高学习模型的性能,但是由于单个子集包含的信息量有限,会导致特征选择算法的不稳定性。因此,本文提出一种基于相关性的集成特征选择算法ECGS-RG,生成多个有效的特征子集来弥补单个子集信息量的不足,提高特征选择的稳定性,该方法主要利用信息度量标准和Approximate Markov blanket技术作为评估特征与已选特征子集之间相关性的指标。实验结果表明ECGS-RG集成特征选择算法的性能以及稳定性在多数情况下均优于只选择单个特征子集的方法。

其他文献

葎草的鉴定研究

本文对葎草Humulua scandens(Lour.)Mwrr.的鉴定进行了进一步研究,其茎和叶的韧皮部有分泌道为首次发现。为正确鉴定葎草提供了新的科学依据。

期刊

葎草外观及显微鉴定韧皮部

西周青铜器铭文章法研究

西周青铜器铭文章法显现了周代先民们初步的平面造型意识，比商代先民们更加注重文字整体布局的美观。商代甲骨文和青铜器铭文的章法大体是参差错落、星罗棋布的，显得较为古朴自

学位

青铜器西周铭文章法

《郁金香》发表始末初探

<正>中篇小说《郁金香》的重见天日,为研究张爱玲的小说创作提供了新的重要的文本。但也有读者提出疑问,从未听说过张爱玲本人及其友人提到过这篇小说,更没想到她会在《小日

期刊

张爱玲小日报中篇小说《郁金香》

双牌江村镇农田水利设施建设现状与对策

通过对双牌县江村镇农田水利设施建设情况进行调研,认为江村镇农田水利设施年久失修,维修改造滞后,必须抢抓紧机遇,统一规划,加大投入,打造项目,并严格执法,强化管理,确保江

期刊

双牌江村镇农田水利设施建设现状对策

HPLC法测定更昔洛韦在家兔房水内的浓度及其市售滴眼液的药动学研究

目的:建立了HPLC法检测更昔洛韦在家兔房水内药物浓度的方法,并研究更昔洛韦滴眼液在家兔眼内的药动学行为。方法:房水样品用20%(v/v)高氯酸沉淀蛋白后取上清液直接进样,HPLC

期刊

更昔洛韦HPLC法家兔房水滴眼液药动学

裂隙对岩石力学性质的影响

在应力作用下,裂隙由张开到关闭形成了应力-应变关系的非线性,裂隙间的摩擦引起了加卸载间的滞回和应力波的衰减,而剪胀开始则是新裂隙形成的标志。由于裂隙的影响,岩石的“

期刊

岩石力学性质应力波传播张开裂隙

独步人生

期刊

开放式小区停车空间利用现状及改造方法

针对目前国内开放式小区停车空间的利用现状,从资源配置、空间改造、资源共享系统、立体停车等方面,提出了开放式小区停车空间的改造方法,指出停车空间作为开放式小区静态交

期刊

停车空间开放式小区停车设施资源配置

不同血管通路血液透析患者透析充分性评估及并发症发生率的对比

目的对比不同血管通路血液透析患者透析充分性与并发症发生率,探讨适合血液透析患者的血管通路。方法选取2012年2月至2013年在我院接受血液透析患者120例,通过随机数字表法分

期刊

血液透析血管通路并发症

1168例子宫内膜癌的回顾性分析

目的：通过对1168例子宫内膜癌的临床、病理资料的回顾性分析，探讨子宫内膜癌术后并发症影响因素以及子宫内膜癌生存率预后的影响因素。方法：对河北医科大学第四医院2008年4月至2

学位

子宫内膜癌回顾性分析术后并发症手术预后

面向高维小样本数据的分类特征选择算法研究

其他学术论文