论文部分内容阅读
基因微阵列为基因功能的研究提供了一种强有力的工具,对疾病分类、病例诊断以及药物研制等具有非常重要的实际意义。由于实验成本很高,基因样本数量常常很少,而检测的基因数目相对而言很大。因此,很多传统的方法难以处理这种高维小样本数据。一方面,基因数据集中存在大量的噪声;另一方面,高维基因数据集中存在大量冗余。噪声和冗余基因不仅会导致分类器过度学习,而且会导致计算复杂度急剧升高。因此,对基因数据的处理,实质上就是对具有“高维小样本”特征的海量数据的挖掘过程,基因特征选择就显得尤为重要。本文首先介绍了基因数据挖掘竞赛,平均识别0.7566。然后以基因数据为研究对象,针对高维小样本特点,设计了一种基于置换检验的两步基因选择算法;并提出了一种新的基于随机序列的基因重要性度量方法。归纳起来,本论文的主要研究内容和研究成果包括以下几个方面:(1)针对目前大规模基因数据集中存在大量的噪声和冗余基因这一问题,提出了一种两步基因特征选择算法。首先分析了目前基因特征选择算中存在的局限性:1)基因选择的数目依赖于先验知识。2)缺少高效的基因去冗方法。针对问题1,采用置换检验的方法,能快速、自主地选择出可解释性高的基因子集,适合处理大规模基因数据。针对问题2,本文结合最小冗余、最大关联的思想,分两步过滤噪声和冗余基因,能够选择高分辨力、低冗余度的基因子集。文中采用SVM、PAM分类器,在基因数据挖掘竞赛提供的12个竞赛数据集作分类实验,实验结果表明本文提出的算法能够高效、快速的选择基因子集,提高分类器性能。(2)针对目前基因特征选择算法假设数据服从特定的分布,而不能对未知分布的基因数据进行准确评估这一问题,提出了一种基于随机序列的基因特征重要性度量方法。本文首先分析了随机序列的基本性质,然后采用信息熵的方式度量序列随机性大小,并结合置换检验的方法定义了序列显著性和显著性临界值,最后根据决策序列的随机性大小度量基因特征的重要性。实验显示,该方法适用于未知分布的基因数据集,能够自主的选择特征基因,提高各分类器性能。