置换检验在高维基因特征选择中的研究与应用

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:edwardeternity
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因微阵列为基因功能的研究提供了一种强有力的工具,对疾病分类、病例诊断以及药物研制等具有非常重要的实际意义。由于实验成本很高,基因样本数量常常很少,而检测的基因数目相对而言很大。因此,很多传统的方法难以处理这种高维小样本数据。一方面,基因数据集中存在大量的噪声;另一方面,高维基因数据集中存在大量冗余。噪声和冗余基因不仅会导致分类器过度学习,而且会导致计算复杂度急剧升高。因此,对基因数据的处理,实质上就是对具有“高维小样本”特征的海量数据的挖掘过程,基因特征选择就显得尤为重要。本文首先介绍了基因数据挖掘竞赛,平均识别0.7566。然后以基因数据为研究对象,针对高维小样本特点,设计了一种基于置换检验的两步基因选择算法;并提出了一种新的基于随机序列的基因重要性度量方法。归纳起来,本论文的主要研究内容和研究成果包括以下几个方面:(1)针对目前大规模基因数据集中存在大量的噪声和冗余基因这一问题,提出了一种两步基因特征选择算法。首先分析了目前基因特征选择算中存在的局限性:1)基因选择的数目依赖于先验知识。2)缺少高效的基因去冗方法。针对问题1,采用置换检验的方法,能快速、自主地选择出可解释性高的基因子集,适合处理大规模基因数据。针对问题2,本文结合最小冗余、最大关联的思想,分两步过滤噪声和冗余基因,能够选择高分辨力、低冗余度的基因子集。文中采用SVM、PAM分类器,在基因数据挖掘竞赛提供的12个竞赛数据集作分类实验,实验结果表明本文提出的算法能够高效、快速的选择基因子集,提高分类器性能。(2)针对目前基因特征选择算法假设数据服从特定的分布,而不能对未知分布的基因数据进行准确评估这一问题,提出了一种基于随机序列的基因特征重要性度量方法。本文首先分析了随机序列的基本性质,然后采用信息熵的方式度量序列随机性大小,并结合置换检验的方法定义了序列显著性和显著性临界值,最后根据决策序列的随机性大小度量基因特征的重要性。实验显示,该方法适用于未知分布的基因数据集,能够自主的选择特征基因,提高各分类器性能。
其他文献
近年来,复杂网络受到越来越多研究者的关注,在网络中挖掘隐藏在表面关系以下的隐性关系,对科学研究和商业应用都具有很高的价值。由于复杂网络都具有社区结构的共性,即这些网
随着互联网技术的飞速发展和迅速普及,越来越多的人们通过上网来获取各种信息,每一秒钟都会有大量的Web网页文件在网络上发布并传播。如果这些文件经常遭受恶意篡改,而且当作者
图像分割是计算机图像识别与理解中的一个十分活跃的研究领域,是模式识别、图像理解、计算机视觉等领域的一个重要的基础环节。由于彩色图像比灰度图像提供了更为丰富的图像信
视觉是人类获取信息的最主要的来源,而视频在多媒体视觉信息中占有着非常重要的地位。但是视频在存储、网络传输中却频频遇到难题:占有空间过大、网络带宽过小、网络误码丢包
学位
作为一种新兴的计算模式,云计算是并行计算、分布式计算和网格计算的综合发展,或者说是这些计算科学概念的商业实现,同时它也是虚拟化技术、效用计算、将基础设施作为服务、将平
桥式起重机是在国民经济中发挥重要作用的装备型产品,在室内外工矿企业、铁路运输、港口码头等部门和场所均得到广泛的运用。然而传统的培训方法已经不能满足目前对桥机司机的需求。基于虚拟现实技术的桥机仿真训练系统将会提供一种新的培训方式,使培训工作规范化和现代化。本文重点介绍了桥式起重机仿真训练系统的实现过程及其中一些关键问题。该系统提供一个虚拟的工作环境,在显示设备上逼真再现桥式起重机驾驶员在操作桥机过程
工作流技术是对业务流程各环节间业务规则的抽象、概括、描述和执行的技术;是实现业务流程的管理与集成,从而最终实现业务执行过程自动化的核心技术。研究和推广工作流技术能大
信号的稀疏结构广泛应用于医学成像、疾病诊断、信息传输和雷达技术等。实际数据显示,信号的稀疏(逼近)模型对信号的恢复是有益的,甚至是必不可少的。随着应用的广泛出现,最近,一个
粒子群优化(Particle Swarm Optimization, PSO)算法是智能优化算法的代表之一。该算法的特点是简单,需要设置和调整的参数较少,收敛速度较快,且容易实现。所以它自一提出,就