论文部分内容阅读
交联质谱技术将质谱技术与交联技术相结合,在研究蛋白质结构与相互作用上具有速度快、成本小、蛋白质纯度要求低等优势。本课题组经过六年的合作探索,研发了应用于化学交联技术的二肽交联鉴定软件系统pLink1,并于2012年发表于Nature Methods期刊。与化学交联相类似,二硫键是生物体内的一种天然“交联”形式,具有重要的生物意义。然而,二硫键鉴定中存在着自己独有的计算问题,pLink1并不能很好地支持其鉴定。 本文对二硫键鉴定中存在的若干计算问题加以分析和讨论,并针对各问题设计相应的算法流程,研究开发了用于二硫键鉴定的二肽交联鉴定引擎pLink-SS和三肽交联鉴定引擎pLink3,首次支持了大数据库下的二肽复杂交联鉴定、大数据库下的三肽交联鉴定和三肽交联鉴定下的自动假发现率控制。 本文对以下五个计算问题进行了研究: 一、二硫键鉴定的碎片离子选择优化问题。二硫键交联肽段的碎片离子碎裂规律与常规化学交联肽段有较大不同,如何有效地对二硫键特异离子进行统计和筛选,并在搜索引擎的打分等环节中加以利用,是二硫键鉴定必须面对的问题。本文构建了较大规模的标注数据集,同时在综合考虑了碎片离子类型在谱图中的比例、出现的完整性和产生信号的强度后,改良和设计了新的显著性计算方法。通过在标注数据集上对77种碎片离子的显著性进行计算,优化碎片离子的利用,我们提高了pLink-SS对二硫键数据的鉴定能力。经测试,pLink-SS在10种标准蛋白质数据集上能够召回全部74对二硫键,鉴定谱图总数为3,656张,假发现率控制在5%以下;在大肠杆菌数据上得到了199对二硫键,并经过生物验证确认了部分新发现的二硫键结果的正确性,这也是目前在大肠杆菌数据上鉴定二硫键位点最多的工作。 二、二硫键鉴定的复杂交联类型鉴定问题。二硫键同常规化学交联相比,交联位点在肽段上距离经常较近,造成二硫键数据中普遍存在着复杂交联类型。在本文中提出了一种新的算法LinkerCut,利用预先设计的质量偏移,实现了在二硫键具体连接形式、二硫键数目未知时,即可对复杂交联类型进行鉴定。LinkerCut方法可用于包括二硫键在内的多种交联剂,且不局限在谱图中含有两对二硫键的情况,对于谱图中有三对、四对乃至更多对二硫键的二肽情况,同样可以有效正确鉴定。它不只可用于pLink-SS,也可应用于其它交联搜索引擎。LinkerCut方法也是目前鉴定复杂交联形式除人工标注外唯一的算法,且可自由应用于不能人工标注的复杂样品大数据库鉴定。经测试,pLink-SS在10种标准蛋白质数据集上共鉴定到复杂交联类型谱图623张,占鉴定谱图总数的17.0%。 三、任意n肽交联鉴定的假发现率控制问题。基于数据库搜索的质谱鉴定技术,在鉴定结果中不可避免地存在着错误结果,需要进行假发现率控制。目前,单肽鉴定和二肽交联鉴定已有成熟的基于目标-诱饵库的假发现率控制方法,而三肽交联及更高的n肽交联鉴定假发现率控制方法尚无研究。在本文中首次推导得到了任意n肽交联质谱鉴定的假发现率估计公式(单肽、二肽交联和三肽交联分别为其中n=1、n=2和n=3的特例)。此工作不仅可用于三肽交联鉴定的假发现率控制,也为日后的四肽交联鉴定、五肽交联鉴定等工作的假发现率控制打下了基础。经测试,控制假发现率5%时,pLink3在三肽合成肽段数据集上的实际假发现率为4.4%,在10种标准蛋白质数据集上的实际假发现率为5.0%。作为对比,没有假发现率控制的同类软件MassMatrix在10种标准蛋白质数据集上的实际假发现率可达83.7%。 四、三肽交联鉴定的精度优化问题。三肽交联在二硫键交联实验中几乎是无法避免的,而在一般的化学交联实验中,三肽交联也是可能存在的。但是,三肽交联鉴定在国际国内很少有人进行过深入研究。本文首先构建了首个三肽交联标注数据集,综合考虑了肽段的代表性和谱图质量,并进行了人工标注。利用标注数据集,本文对三肽交联鉴定中的碎裂规律、碎片离子利用、预处理算法、碎片离子打分、多特征机器学习打分等与精度相关的基础问题进行了研究,设计了基于平均氨基酸模型的预处理算法、基于马尔可夫模型的碎片离子打分系统和线性支持向量机多特征机器学习打分系统,实现于pLink3中。pLink3也是首个研究了三肽交联鉴定中存在的各种问题,并专用于三肽交联鉴定的搜索引擎。经测试,pLink3在蛋白质牛血清白蛋白质上能够召回全部16对三肽交联二硫键位点;在10种标准蛋白质数据集上,与可部分支持三肽交联鉴定的软件MassMatrix相比,pLink3能够鉴定近3倍的正确谱图,且没有MassMatrix假发现率过高的问题。 五、三肽交联鉴定在大数据库下的速度优化问题。三肽交联鉴定在计算上面对的最大挑战,是搜索空间随数据库中蛋白质数目立方级增大,这严重影响三肽交联鉴定的速度与精度。当数据库中的蛋白质超过10条时,三肽交联鉴定穷举模式就已不能在一天中完成。在本文中设计了三个索引结构:碎片离子索引、序列标签索引和修饰肽段索引,以逐层鉴定三条肽段,将候选肽的规模由O(n3)降低到O(n),在保证精度的同时极大地提高了鉴定速度。pLink3是目前唯一一个支持了大数据库下三肽交联鉴定的搜索引擎,经测试,在大肠杆菌全蛋白质数据库上使用单个线程对7,419张谱图进行三肽交联鉴定,pLink3可在2小时内完成,并正确召回80%的标注谱图。