论文部分内容阅读
基因芯片是随着“人类基因组计划”而发展起来的一门新兴技术,能同时对大量的遗传信息进行高效、快速地检测、分析,因而被广泛的应用于研究肿瘤发生发展过程中的基因表达情况。由于基因表达谱数据具有小样本、高维度的特点,给数据挖掘提出了新课题。如何选择合适的方法进行精确的肿瘤亚型分类,提取尽量少的具有分类信息的特征基因,认识肿瘤产生和发展的机制并最终达到临床治疗的目的,是当前面临的关键性问题。随机森林法是近几年提出的一种较受关注地分类和特征选择算法,该方法结合了决策树和分类器融合技术,能有效地选择特征基因和对肿瘤精确分类,在肿瘤的研究中得到较为广泛地应用。本文对基于随机森林法的肿瘤基因表达谱数据分析进行了研究。主要内容如下:
(1)评价了随机森林的特征选择性能。随机森林属于嵌入式特征选择法,为保证其所选基因在其他分类器上的泛化性,利用SVM进行分类效果验证,并与2种常用特征选择算法SAM和ReliefF进行比较。在实验所选5组常用肿瘤数据上的结果显示,随机森林特征基因选择性能优于另两种算法。
(2)研究了随机森林中类权重问题。多数肿瘤表达谱数据具有样本少、类与类之间样本量相差较大的特点,根据随机森林分类和特征选择的原理,分类效果将向大样本量的类倾斜。针对这种情况,讨论了随机森林类权重的设置。实验证明,设置不同的类权重能使随机森林对小样本不均衡数据的分类和特征选择效果有不同程度的提高。
(3)相关数据分析和解释随机森林所选基因的生物意义。结合随机森林和基因信号通路、Gene Ontology分别分析了胃癌和结肠癌数据,并构建了简单的通路网络,对所选基因进行生物学解释。其中胃癌数据是由北京市肿瘤防治研究所提供的关于胃癌分型的较新数据;结肠癌数据是国内外研究中使用较多的一组数据。该研究对机器学习算法与生物学方法的结合进行了初步尝试,讨论了基因之间的联系,寻找到部分与癌症有关的特征基因和信号通路,对今后类似的研究有一定的借鉴意义。
(4)构建一种基于随机森林的4基因分类器。利用TSP可以选择一对表达水平相反的基因,组成双基因分类器实现胃肠道间质瘤和平滑肌肌肉瘤的精确分类。基于相同考虑,本研究针对一组广泛使用的结肠癌数据,利用随机森林结合后向消除思想选择4个特征基因,构造一个4基因的分类器,对北京市肿瘤防治研究所提供的8对16例临床样本分类正确率达87.5%,优于TSP的双基因分类器。该分类器构造简单,精确度高,有较高可操作性,对于结肠癌的临床诊断具有现实意义。