论文部分内容阅读
目的:随着高通量测序技术的不断改进和测序成本的下降,TCGA和ICGC等机构已积累了海量的癌症基因组变异数据,癌症基因的识别和预测已成为生物信息学研究的重点问题。本研究主要针对“互斥突变”的识别方法展开研究,重点介绍MEGSA算法的基本原理,通过模拟研究评价其检验效能,并将其应用于包含SNP和CNV的GBM数据,找出最优互斥基因集,为基因药物的研制和癌症的诊断与治疗提供依据。方法:了解癌症相关突变的研究进展,介绍现有识别互斥突变的方法,分析其基本原理及不足,总结出识别互斥突变的理想分析框架。MEGSA算法是目前为止识别互斥突变最优的算法。模拟分析中,固定MEGS基因数=3,按覆盖率?=0.1、0.2、0.25、0.3、0.4、0.5;样本量=50、100、200、300、400、500;随机突变基因数量=10、15、20、25、30;随机突变率=10%模拟突变矩阵,比较不同参数设置下的MEGS准确检出率。实例分析中,将包含261个病人、398个突变基因的GBM数据整理为二分突变矩阵,然后用R软件进行分析,初步寻找出GBM致癌通路上的互斥基因集。结果:模拟研究表明MEGSA识别互斥基因集的效能随覆盖率和样本量的增加而增大,而基因数的变化对其效能几乎没有影响。GBM突变数据经MEGSA分析,找到20个有意义的MEGS,共包含12个基因变异,其中SNP:RB1突变、TP53突变、IDH1突变、PTEN突变、NF1突变、SPTA1突变;CNV:CDK4扩增、CDKN2A缺失、MDM2扩增、EGFR扩增、PTEN缺失、PDGFRA扩增和一个CNV meta基因集(MET,CAP2A2,ST7-AS1,ST7,ST7-OT4)。最显著的MEGS包含三个基因变异:CDK4扩增、CDKN2A缺失和RB1突变。结论:MEGSA是一种相对灵活而有效的分析方法,不仅适用于位点突变数据,在包含拷贝数变异的数据中也有较好的检验效能。与Multi-Dendrix算法作比较,MEGSA具有较高的检验效能,其找出的突变基因除SPTA1外均已证实存在于GBM的致病通路中,且找出的CNV也证实与癌症的发生发展有关。但是MEGSA采用多路径搜索算法进行计算可能会丢失一些结果,且置换模拟需要较高的次数才能得到相对理想的结果,需要更大的计算机CPU和运行内存。