论文部分内容阅读
眼下,机器学习、数据挖掘等技术已经普遍运用于医疗、生命科学、经济学等社会各行各业。 本文的主要内容是机器学习方法在生物数据上的一个应用,使用DNA微阵列数据作为主要研究对象,通过对基因表达数据的分析,并运用机器学习中的特征选择方法,能够迅速找到癌症基因,并在医学上提供诊断依据。 本文首先介绍了微阵列数据的相关背景知识,以及研究意义。之后,针对微阵列数据的特点,分析了现有特征选择方法在处理该数据上所存在的不足,进而提出新的方法来弥补和克服现有问题。 本文的核心内容在于,提出一种新颖的特征选择方法用于处理微阵列数据。基因表达数据具有大属性集,小样本集的特点。为处理这种类型的数据,我们将不同的基因按照分类能力结构分为不同组。考虑到微阵列数据分类问题多为多类问题,我们将多类问题拆分为多个两类问题,针对其小样本大属性集的特点,采用贝叶斯错误率来衡量每一条特征(基因)对于不同两类问题的区分能力,进而获得单一特征对于不同两类问题的分类能力,使用某一特征是否可将一个或几个两类问题分开,并用分类能力结构向量来表示每个特征的分类能力。通过组合具有不同分类能力结构的属性来使得这些属性之间能够在分类能力上互相弥补,从而获得理想的分类结果,达到特征选择的目的。 实验证明对比已有的一些特征选择方法,本文提出的方法在分类预测的准确率上,能够维持较高水平,与此同时,并大幅削减了特征子集中特征的数量。另外,通过设计实验,对比现已存在的特征选择方法,我们的方法可以挖掘出在传统特征选择方法中不被看好的特征,并通过考虑这些特征之间的搭配组合,减少特征之间的冗余信息,达到使用较少特征获得较高正确率的目的。 最后,基于已选特征,从分类器预测角度考虑,为进一步发挥已选特征的预测能力,提升分类器预测正确率,本文引入分类器集成的思想。将已选特征进行组合,训练分类器进行投票,最终得到预测结果。实验证明此方法行之有效。