论文部分内容阅读
蛋白质组学,即对细胞内所有蛋白质的大规模研究,包括蛋白质的表达水平,翻译后的修饰,蛋白之间的相互作用等,由此获得蛋白质水平上的关于疾病发生和细胞代谢等过程整体而全面的认识。随着质谱技术的发展与高质量蛋白质组学数据的快速累积,越来越多的研究关注于如何利用大规模的蛋白质组学数据理解疾病的分子机制,找到疾病诊断和治疗的蛋白质靶标。据世界卫生组织公布的数据显示,癌症的发病率和死亡率呈迅速上升趋势。如何利用蛋白质组学对癌症的发生发展机制以及诊断治疗进行研究,成为癌症研究中的一个重要方向。目前利用癌症蛋白质组中蛋白表达谱和磷酸化谱数据对关键性蛋白质、驱动性网络的鉴定与排序方法尚未被充分、系统地研究与评估。本研究中我们将利用临床肿瘤蛋白质组计划的大规模蛋白质组学数据,通过生物网络的结合,系统地对关键性蛋白质、通路的排序算法进行研究、比较和应用,找到适合癌症蛋白质组学的癌症关键蛋白排序算法及整合蛋白质表达谱和磷酸化谱的通路排序算法。首先,在关键蛋白质的排序算法研究中,我们运用先验的致病性蛋白质知识和大样本蛋白质表达谱,通过网络局部和全局随机游走模型进行排序,研究评估不同整合策略的效力。被测试的先验数据包括三种初始蛋白集,即从OMIM数据库收集的已知癌症相关蛋白(KDPs)、从蛋白表达谱检测得到的全部差异表达蛋白(DEPs)和在蛋白质互作网络中已知疾病蛋白及其相邻差异表达蛋白(eKDPs)。我们基于这三种初始蛋白集分别对结直肠癌和乳腺癌的样本集在蛋白质互作网络中进行全局排序和局部排序。利用留一法交叉验证对六种组合排序方法进行比较和评估,结果显示全局排序的方法优于局部排序方法。而在排序方法相同时,基于eKDPs的排序结果优于基于KDPs和DEPs的排序。对排名靠前的潜在疾病蛋白进行了基于文献挖掘的注释和基于细胞基因敲除结果的验证,均显示最优化的排序策略可以有效识别癌症关键蛋白。蛋白质作为生命活动的直接功能单位,存在于并作用于复杂的分子相互作用关系网络或通路中。蛋白质表达水平变化会对通路活动产生很大的影响,同时蛋白质磷酸化调控也扮演着重要的角色。如何充分利用和整合蛋白质组表达谱和磷酸化谱,找到疾病发生发展过程中关键通路,特别是疾病亚型特异性通路是目前一个重要的挑战。这里,我们在前面工作基础之上,进一步提出整合癌症蛋白质组表达谱和磷酸化谱进行通路分析的算法,并对方法进行系统的比较、评估、优化。具体来说,我们选择过表达分析、基于类别打分分析和基于网络拓扑结构的三大类通路分析方法,同时根据不同通路分析的输入信息提出了不同的组学信息整合方法。我们对乳腺癌蛋白质组数据分析的结果显示,对于三种通路分析的方法,整合表达谱和修饰谱信息的通路分析优于利用单个信息的策略,而基于网络拓扑结构的通路分析方法能使已知目标通路排名更靠前,排序更准确。进一步,我们整合蛋白质表达谱、修饰谱以及网络拓扑结构改变的通路分析方法对乳腺癌四个亚型的分别进行了通路排序分析,发现了一些亚型特异性通路,部分结果与已有研究报道一致,例如p53通路在三阴型乳腺癌中排名最靠前,并且在Luminal A型中排名比Luminal B型靠前。最后我们构建并发布了R软件包comPath,用来整合蛋白质和磷酸化蛋白质表达谱进行通路分析,还可以评估不同表达谱对通路排名的影响并将其可视化。本研究是在蛋白质组水平上整合癌症蛋白表达谱和磷酸化谱,提出关键蛋白质与通路的分析策略,可以为癌症致病机理的研究提供新方法、新视角,也对更多组学整合研究提供借鉴,从而了解疾病潜在的发病机制,为疾病的诊断和治疗提供理论依据。