论文部分内容阅读
在生物系统中,遗传相互作用指的是两个基因同时突变的表型异于它们分别突变表型叠加效果的现象。通过遗传相互作用网络研究基因之间如何进行相互作用共同影响某种表型,是理解生物学通路的结构和功能,生物系统进化规律,和研究复杂疾病的重要途径。近年来,高通量实验技术飞速发展,在大肠杆菌、芽殖酵母、裂殖酵母和线虫等模式生物中,遗传相互作用的高通量筛选得以实现。在芽殖酵母中,EMAP实验能够定量筛选遗传相互作用,输出能表征相互作用强弱的S分值。EMAP数据集提供了系统研究生命规律的契机,如何从大规模网络数据集中提取实验上可验证的生物学假设,给生物信息学研究提出了挑战。
尽管EMAP数据集能够对遗传相互作用定量打分(S分值),但在数据分析中,研究者通常在给定阈值下将网络截断为0/1网络,导致定量信息的流失。为了解决这个问题,我们用高斯混合模型来拟合EMAP数据集中S分值的分布,推断相应基因具有正或负遗传相互作用的后验概率,构建概率遗传相互作用网络。我们将该模型应用于预测芽殖酵母磷酸化网络EMAP数据集中的三元模块,结果优于已有算法;我们据此提出了新的EMAP数据集分析流程,并应用于芽殖酵母细胞周期EMAP数据集,此方法构建的子网络重现了芽殖酵母G1/S期的主要调控关系。
在此基础上,我们利用贝叶斯判别分析方法在概率遗传相互作用网络中预测模块,并应用该算法分析芽殖酵母早期分泌通路EMAP数据集。为评价算法的准确性,我们将预测结果与经实验验证的功能基因集合对照,结果表明,该算法能够预测具有生物学意义的功能模块,且准确性优于文献中的算法。
接下来,我们对网络聚类算法进行了系统的调研。调研结果表明,目前存在着多种网络聚类算法,它们的适用范围不同,聚类原理不同,导致不同的聚类结果。为了指导遗传相互作用网络模块预测中算法的选择,我们系统评价和比较了多种网络聚类算法在EMAP数据集、基因组尺度的遗传相互作用网络和模拟网络中的聚类结果。我们的结论是:算法的选择需要综合考虑网络的拓扑学性质和生物学实验目的两个因素。在研究某一生物学过程相关基因的EMAP数据集中,分层聚类对蛋白质复合体的预测最准确;贝叶斯判别分析算法预测生物学通路和共功能集合最准确。在基因组尺度的网络中,变分贝叶斯聚类是最佳的选择。
综上,这些结果说明统计学方法在生物网络分析乃至系统生物学领域有重要的应用;对这些工作全面深入的总结也将有助于补充和完善统计学方法。