论文部分内容阅读
本文通过整合多种类型的生物学信息,深入研究了动态蛋白质网络构建、关键蛋白质识别和蛋白质复合物预测等问题。细胞系统是高度动态的并能对环境刺激做出反应。细胞的功能及其对外界刺激的反应模式受生物网络调控。具有静态连接性的蛋白质-蛋白质相互作用网络是动态的,就这层意义而言,蛋白质实现所谓的随时间进化的功能活动性。从静态网络分析向动态转移对进一步理解分子系统是重要的。本文通过结合时间序列基因表达谱和蛋白质相互作用网络,构建了时间过程蛋白质相互作用网络(TC-PINs)。为了判断TC-PINs是否成功,如下验证步骤被采用:首先,一个聚类算法被分别用于从三种网络(时间过程蛋白质相互作用网络、静态蛋白质网络和伪随机网络)中识别功能模块。然后,对来自TC-PINs中的功能模块,重复的功能模块只保留一个,被大功能模块包含的小功能模块被删除。最后,匹配分析和GO富集分析被执行以比较来自不同网络的功能模块。比较分析显示,与静态蛋白质相互作用网络相比,来自TC-PINs的功能模块具有更显著的生物学意义。关键蛋白质对生物在各种条件下的生存至关重要。有许多实验和计算方法用于预测关键蛋白质。因为蛋白质相互作用数据存在缺陷,所以基于全局的蛋白质相互作用网络预测关键蛋白质的计算方法受到严格的限制。但是,基因表达谱有助于在一定程度上弥补这种不足。本文整合基因表达和蛋白质相互作用数据,提出了一种新的关键蛋白质识别方法WDC。皮尔逊相关系数(PCC, Pearson Correlation Coefficient)被用于结合蛋白质相互作用网络和基因表达谱。基于PCC和边聚类系数(ECC, Edge Clustering Coefficient),一种新的中心性测度即加权度中心性(WDC, Weighted Degree Centrality)被提出,以便获得可靠的关键蛋白质预测结果。为了评估WDC方法的性能,它被用于从酵母的蛋白质相互作用网络中预测关键蛋白质。作为比较,其他预测方法也被用于从酵母的网络中预测关键蛋白质。一些评价方法被用于分析各种预测方法产生的结果。本文显示了所有预测结果和比较分析情况。另外,WDC方法中的参数λ被详细分析,然后最佳的λ值被找到。基于λ的最佳值,WDC和另一种方法PeC的区别被讨论。这些分析结果表明WDC胜过当前的其他方法。同时,也意味着整合多源生物数据预测关键蛋白质是一种有效的方法。蛋白质复合物是许多生物过程得以实现的基础,它们执行大量的生物功能。不断增加的蛋白质相互作用数据使得通过计算方法预测蛋白质复合物成为可能。有许多算法在预测蛋白质复合物时,仅仅考虑了蛋白质相互作用数据,但是,来自高通量生物实验的蛋白质相互作用数据不仅具有高的假阳性率,而且还是不完整的。实际上蛋白质相互作用的这种不足大大降低了这些预测方法的精度。本文提出了一种新的蛋白质复合物预测方法(CMBI, Clustering based on Multiple Biological Information)。该方法整合基因表达谱、关键蛋白质信息和蛋白质相互作用网络三种生物数据进行蛋白质复合物的预测。首先,CMBI基于蛋白质相互作用网络的边聚类系数(ECC, Edge Clustering Coefficient)和基因表达谱的皮尔逊相关系数(PCC, Pearson Correlation Coefficient)重新定义了两个相互作用的蛋白质之间的功能相似性(FS,Functional Similarity)。然后,CMBI选择已知的关键蛋白质作为种子构建蛋白质复合物核。在种子扩展到核的过程中,种子的关键蛋白质邻居和功能相似性FS大于给定阈值T的邻居被添加到复合物核中。复合物核被构造以后,CMBI开始产生蛋白质复合物。复合物核的邻居被考查,如果邻居与复合物核中蛋白质的FS大于给定的阈值T,则该邻居被添加到复合物中,用同样的方法遍历复合物核的所有邻居,生成蛋白质复合物。由于一些种子有相似的邻接图,所以从这些邻接图中挖掘的复合物可能有重叠,从而导致较高的冗余。因而,CMBI算法也设计了冗余过滤子程序,以将这种冗余控制到合理的程度。另外,除关键蛋白质,CMBI也使用非关键蛋白质作为种子并将之扩展为蛋白质复合物。为了检测CMBI的性能,CMBI预测的复合物被用于和其他方法预测的复合物进行匹配分析和GO功能富集分析。最后CMBI用到的两个参数T和R被详细分析。匹配分析和GO分析的结果显示CMBI预测蛋白质复合物的能力明显超过了现存的蛋白质复合物挖掘方法。这意味着整合不同来源的生物学数据预测蛋白质复合物的研究是成功的。本文还提出了一种能用于高可信度加权蛋白质网络的通用复合物预测算法Cluster WD。