基于属性分类能力结构互补性的基因选择方法

来源 :南开大学 | 被引量 : 0次 | 上传用户:ymlazy63
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
眼下,机器学习、数据挖掘等技术已经普遍运用于医疗、生命科学、经济学等社会各行各业。  本文的主要内容是机器学习方法在生物数据上的一个应用,使用DNA微阵列数据作为主要研究对象,通过对基因表达数据的分析,并运用机器学习中的特征选择方法,能够迅速找到癌症基因,并在医学上提供诊断依据。  本文首先介绍了微阵列数据的相关背景知识,以及研究意义。之后,针对微阵列数据的特点,分析了现有特征选择方法在处理该数据上所存在的不足,进而提出新的方法来弥补和克服现有问题。  本文的核心内容在于,提出一种新颖的特征选择方法用于处理微阵列数据。基因表达数据具有大属性集,小样本集的特点。为处理这种类型的数据,我们将不同的基因按照分类能力结构分为不同组。考虑到微阵列数据分类问题多为多类问题,我们将多类问题拆分为多个两类问题,针对其小样本大属性集的特点,采用贝叶斯错误率来衡量每一条特征(基因)对于不同两类问题的区分能力,进而获得单一特征对于不同两类问题的分类能力,使用某一特征是否可将一个或几个两类问题分开,并用分类能力结构向量来表示每个特征的分类能力。通过组合具有不同分类能力结构的属性来使得这些属性之间能够在分类能力上互相弥补,从而获得理想的分类结果,达到特征选择的目的。  实验证明对比已有的一些特征选择方法,本文提出的方法在分类预测的准确率上,能够维持较高水平,与此同时,并大幅削减了特征子集中特征的数量。另外,通过设计实验,对比现已存在的特征选择方法,我们的方法可以挖掘出在传统特征选择方法中不被看好的特征,并通过考虑这些特征之间的搭配组合,减少特征之间的冗余信息,达到使用较少特征获得较高正确率的目的。  最后,基于已选特征,从分类器预测角度考虑,为进一步发挥已选特征的预测能力,提升分类器预测正确率,本文引入分类器集成的思想。将已选特征进行组合,训练分类器进行投票,最终得到预测结果。实验证明此方法行之有效。
其他文献
本文作为面向解释的偏差分析的前半部分工作,主要是通过对我们所做的一些偏差分析系统进行比较、分析,将面向解释的偏差分析问题模型化,并提出相应的问题解决方法。在模型化问题
在基于证书的公钥密码系统中需要大量的时间和存储空间来签发、存储用户的证书和公钥,而且验证也比较烦琐。为了简化公钥密码系统的密钥管理程序、降低开销,1984年Adi.Shamir提
传统计算机图形学,涉及到复杂建模、消隐、投影、裁剪和光照明计算,对高度复杂的场景,现有的计算机硬件无法实现几何场景的实时绘制。随着对绘制真实感和实时性要求的不断提高,目
防火墙作为信息安全保障的重要措施已经应用在众多组织机构的网络中。从防火墙技术诞生近20年来,防火墙产品的功能得到了不断的加强。但由于新的黑客攻击手段层出不穷,基于静
随着现代化社会的日新月异,计算机网络、数据库技术等信息技术的高速发展,使得企业在高速发展的同时,所面临的竞争也同益激烈。政府和企业如何能在复杂多变的市场环境中适应市场
全文检索技术已经在企业信息门户等领域有了广泛的应用。然而,目前大部分全文检索系统是面向静态数据库或半动态数据库的,即信息一旦录入就不能更新,或者只能在预先设置的时
图像分割是图像处理领域中的一个热点研究问题。传统的图像分割算法主要包括阈值法、边缘检测法、基于区域的方法以及聚类方法等。随着群智能算法的不断发展,蚁群聚类算法已
Thomas.Bayes在他的论文“关于几率性求解问题的评论”(1764)中首先提出了贝叶斯概率观点。1988年Pearl出版了关于贝叶斯网络(Bayesian Networks, BNs)的第一本书籍。近年来,
由于软件再工程时代的到来,既存软件的再利用成为不可超越的课题。但是多数既存文档基本上都没有保持与程序的一致性。即便是一次开发也不能保证没有设计变更,而设计变更后的文
人工蜂群算法是群体智能领域新兴的智能优化技术,其灵感来源于自然界中蜂群的觅食行为。与其它群体智能算法相比,该算法采用了角色转换和多引领选择策略,具有参数简单、收敛速度