面向二硫键应用的二肽/三肽交联质谱技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:liongliong493
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
交联质谱技术将质谱技术与交联技术相结合,在研究蛋白质结构与相互作用上具有速度快、成本小、蛋白质纯度要求低等优势。本课题组经过六年的合作探索,研发了应用于化学交联技术的二肽交联鉴定软件系统pLink1,并于2012年发表于Nature Methods期刊。与化学交联相类似,二硫键是生物体内的一种天然“交联”形式,具有重要的生物意义。然而,二硫键鉴定中存在着自己独有的计算问题,pLink1并不能很好地支持其鉴定。  本文对二硫键鉴定中存在的若干计算问题加以分析和讨论,并针对各问题设计相应的算法流程,研究开发了用于二硫键鉴定的二肽交联鉴定引擎pLink-SS和三肽交联鉴定引擎pLink3,首次支持了大数据库下的二肽复杂交联鉴定、大数据库下的三肽交联鉴定和三肽交联鉴定下的自动假发现率控制。  本文对以下五个计算问题进行了研究:  一、二硫键鉴定的碎片离子选择优化问题。二硫键交联肽段的碎片离子碎裂规律与常规化学交联肽段有较大不同,如何有效地对二硫键特异离子进行统计和筛选,并在搜索引擎的打分等环节中加以利用,是二硫键鉴定必须面对的问题。本文构建了较大规模的标注数据集,同时在综合考虑了碎片离子类型在谱图中的比例、出现的完整性和产生信号的强度后,改良和设计了新的显著性计算方法。通过在标注数据集上对77种碎片离子的显著性进行计算,优化碎片离子的利用,我们提高了pLink-SS对二硫键数据的鉴定能力。经测试,pLink-SS在10种标准蛋白质数据集上能够召回全部74对二硫键,鉴定谱图总数为3,656张,假发现率控制在5%以下;在大肠杆菌数据上得到了199对二硫键,并经过生物验证确认了部分新发现的二硫键结果的正确性,这也是目前在大肠杆菌数据上鉴定二硫键位点最多的工作。  二、二硫键鉴定的复杂交联类型鉴定问题。二硫键同常规化学交联相比,交联位点在肽段上距离经常较近,造成二硫键数据中普遍存在着复杂交联类型。在本文中提出了一种新的算法LinkerCut,利用预先设计的质量偏移,实现了在二硫键具体连接形式、二硫键数目未知时,即可对复杂交联类型进行鉴定。LinkerCut方法可用于包括二硫键在内的多种交联剂,且不局限在谱图中含有两对二硫键的情况,对于谱图中有三对、四对乃至更多对二硫键的二肽情况,同样可以有效正确鉴定。它不只可用于pLink-SS,也可应用于其它交联搜索引擎。LinkerCut方法也是目前鉴定复杂交联形式除人工标注外唯一的算法,且可自由应用于不能人工标注的复杂样品大数据库鉴定。经测试,pLink-SS在10种标准蛋白质数据集上共鉴定到复杂交联类型谱图623张,占鉴定谱图总数的17.0%。  三、任意n肽交联鉴定的假发现率控制问题。基于数据库搜索的质谱鉴定技术,在鉴定结果中不可避免地存在着错误结果,需要进行假发现率控制。目前,单肽鉴定和二肽交联鉴定已有成熟的基于目标-诱饵库的假发现率控制方法,而三肽交联及更高的n肽交联鉴定假发现率控制方法尚无研究。在本文中首次推导得到了任意n肽交联质谱鉴定的假发现率估计公式(单肽、二肽交联和三肽交联分别为其中n=1、n=2和n=3的特例)。此工作不仅可用于三肽交联鉴定的假发现率控制,也为日后的四肽交联鉴定、五肽交联鉴定等工作的假发现率控制打下了基础。经测试,控制假发现率5%时,pLink3在三肽合成肽段数据集上的实际假发现率为4.4%,在10种标准蛋白质数据集上的实际假发现率为5.0%。作为对比,没有假发现率控制的同类软件MassMatrix在10种标准蛋白质数据集上的实际假发现率可达83.7%。  四、三肽交联鉴定的精度优化问题。三肽交联在二硫键交联实验中几乎是无法避免的,而在一般的化学交联实验中,三肽交联也是可能存在的。但是,三肽交联鉴定在国际国内很少有人进行过深入研究。本文首先构建了首个三肽交联标注数据集,综合考虑了肽段的代表性和谱图质量,并进行了人工标注。利用标注数据集,本文对三肽交联鉴定中的碎裂规律、碎片离子利用、预处理算法、碎片离子打分、多特征机器学习打分等与精度相关的基础问题进行了研究,设计了基于平均氨基酸模型的预处理算法、基于马尔可夫模型的碎片离子打分系统和线性支持向量机多特征机器学习打分系统,实现于pLink3中。pLink3也是首个研究了三肽交联鉴定中存在的各种问题,并专用于三肽交联鉴定的搜索引擎。经测试,pLink3在蛋白质牛血清白蛋白质上能够召回全部16对三肽交联二硫键位点;在10种标准蛋白质数据集上,与可部分支持三肽交联鉴定的软件MassMatrix相比,pLink3能够鉴定近3倍的正确谱图,且没有MassMatrix假发现率过高的问题。  五、三肽交联鉴定在大数据库下的速度优化问题。三肽交联鉴定在计算上面对的最大挑战,是搜索空间随数据库中蛋白质数目立方级增大,这严重影响三肽交联鉴定的速度与精度。当数据库中的蛋白质超过10条时,三肽交联鉴定穷举模式就已不能在一天中完成。在本文中设计了三个索引结构:碎片离子索引、序列标签索引和修饰肽段索引,以逐层鉴定三条肽段,将候选肽的规模由O(n3)降低到O(n),在保证精度的同时极大地提高了鉴定速度。pLink3是目前唯一一个支持了大数据库下三肽交联鉴定的搜索引擎,经测试,在大肠杆菌全蛋白质数据库上使用单个线程对7,419张谱图进行三肽交联鉴定,pLink3可在2小时内完成,并正确召回80%的标注谱图。
其他文献
移动机器人自主导航问题是机器人学领域的核心问题之一,涉及了路径规划、地图构建等关键技术;计算智能是指计算机利用数学方法模拟人类智能处理传感器信息,完成复杂的智能行为。
随着Internet的普及和快速发展,Internet为我们提供了涉及方方面面的无数的文档资料。因此为了能够在如此巨大并且更新频繁的信息中,搜索到我们所需的信息,必须需要一种精确
光顺是几何造型中的一项重要技术,其目的是滤除模型表面噪声,产生高质量的光滑曲面。本文首先对目前已有的网格模型光顺理论进行总结,然后结合实际应用,设计了一种保持特征的网格
随着计算机技术的迅速发展和硬件水平的快速提升,尤其是近年来高性能计算机和并行技术的发展,科学计算可视化作为分析计算结果数据的关键手段已经成为高性能计算的不可缺少的组
学位
软件构件库是软件复用的支持设施之一。构件库主要提供构件描述、分类、发布、存储、检索、反馈和评估等构件管理作用。当前,随着以Web Services为代表的分布式构件技术的发展
现代信息社会对计算机系统和互联网络的高度依赖使得作为其基础设施的软件变得尤为重要。作为信息安全中重要的一环,软件安全得到了学术界和工业界高度的重视。 软件的庞多
随着Web2.0的快速发展,互联网上积累了海量的用户产生内容,如微博、论坛、贴吧、评论等。这类信息资源具有两个显著的特点:(1)文档具有时间动态性特征,即文档与时间紧密相连,内容
学位
Internet已经发展成世界上最大的网络,并从根本上影响了整个社会的生活方式。但是随着其爆炸性增长,Internet遇到了许多问题。这些问题主要表现在网络地址问题、路由瓶颈问题、
学位
Internet上的计算资源一般都是独立开发并管理的,具有一定的自主性。而由于Internet本身所具有的开放性和动态性,Internet上的计算资源必将以某种方式实现互联、互通、协作、