基于库搜索的蛋白质和糖分子质谱解析算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:congmingwangzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物医药技术以及计算机科学技术的发展,质谱分析技术在蛋白质组学及糖组学等多领域得到了应用,包括蛋白质鉴定、糖分子结构鉴定、生物标记物发现与疾病诊断建模等。  质谱分析技术主要分为两大类:库搜索方法和De Novo方法。理论谱预测作为基于质谱分析鉴定方法设计中的一个重要的环节,对于库搜索方法及De Novo方法的鉴定准确性都有很大的影响。然而大部分蛋白质鉴定软件在理论谱预测环节的设计太粗略,从而影响了最终鉴定结果的准确性。理论谱预测是指设计算法模型模拟蛋白质序列在质谱仪中碎裂的方式,从而构建一个理论的质谱用于跟实际质谱数据进行比较。  与蛋白质序列相比,糖树形分枝结构更为复杂,往往仅用二级质谱不足以实现糖分枝结构的准确鉴定。多级质谱分析可以通过对糖结构的连续多次碎裂,得到更多的结构信息从而实现对糖分枝结构的准确鉴定。但是,在鉴定过程中如何选择打谱路径产生多级质谱数据是一大难题。常规情况下,多级质谱的产生方式都是基于实验操作员的专业经验或者在当前质谱中选择峰强最强的离子峰产生下一级质谱的方法来得到多级质谱。但是,人工选峰的方法耗时、样品消耗量大,且往往鉴定不准确。  针对上述问题,本研究通过对蛋白质及糖在质谱仪中碎裂机理以及对计算机算法和统计模型的深入研究,取得了如下成果:  (1)提出并实现了基于质子迁移模型的理论谱预测模型MS-Simulator  本研究提出了一种可用来预测给定肽段对应的y离子丰度的模型MS-Simulator。MS-Simulator模型基于质子迁移理论,通过对肽段相邻位置糖苷键断裂形成y离子的丰度比进行预测,然后根据丰度比信息计算离子峰的相对强度,结合离子质荷比信息构建理论谱。与现有的预测准确度最高的理论谱预测模型MassAnalyzer相比,MS-Simulator模型的参数训练过程更加简单,而且预测的y离子理论谱准确度比MassAnalyzer高。  (2)提出并实现了基于质谱词典的理论谱预测模型TagNovo  本研究提出了一种基于质谱词典的理论谱预测模型TagNovo,通过收集已有鉴定结果的质谱数据,对每一肽段分成多个5-mer长度的肽片段,然后从对应质谱中找其相应的局部质谱信息,每一5-mer片段及对应质谱局部信息构成一个词条,对大量的词条进行聚类形成质谱“词典”。TagNovo质谱词典模型可以用来实现理论谱的全谱预测,从而可以用来对现有谱库鉴定方法中稀缺的小物种生物通过对蛋白序列的理论谱预测实现谱库扩充,解决了谱库搜索方法的发展瓶颈。  (3)提出并实现了多级质谱糖分枝结构鉴定算法GIPS  本研究提出了利用多级质谱实现糖分枝结构自动鉴定模型GIPS。GIPS的创新点主要表现在以下两方面:1)提出了一种新的指导多级质谱打谱的选峰算法。通过计算多个可用来产生下一张质谱的母离子峰的信息量,选择可用来区分候选结构的信息量最大母离子峰(SMI峰)来产生下一张质谱。2)提出了基于层次贝叶斯模型的糖候选结构打分算法,用来实现选峰步骤中的信息量计算以及对糖鉴定结果打分。GIPS可以使用少量的打谱次数实现糖分枝结构的准确鉴定,避免了多级质谱的手动选峰打谱的低效性,提高了糖鉴定的灵敏度,减少了鉴定所需样品的消耗。  本研究提高了理论谱预测的精度,通过理论谱预测对鉴定结果重打分提高了已有蛋白质鉴定软件的准确性。提出了新的质谱词条库模型,解决了现有谱库搜索方法的局限性。提出了多级质谱糖鉴定策略,使得自动、快速、准确地对糖分枝结构鉴定成为可能。
其他文献
随着多核芯片和集群技术的发展,高性能计算技术在国内外科学研究、工程计算以及军事技术等方面的应用取得巨大成就。高性能计算为以高性能计算机或多核CPU集群为平台的大规模
由于P2P用户的高动态性和异构性,P2P文件共享系统中的冷门文件的下载成功率很低。之前的文献一方面利用空闲用户来协助分发文件,增加参与分发文件的用户数,另一方面是利用稳
随着互联网的发展,网络应用已经成为人类生活中不可分割的一部分。作为用户登录互联网的主要入口,浏览器在用户的日常应用中起着越来越重要的作用。“中国芯”的成功不仅仅体现
随着应用互联网化的不断发展,用户访问量大规模增长,传统软件架构已逐渐无法适应互联网时代的快速变化,面临着诸多挑战。微服务架构倡导将服务划分成多个功能小而专一的服务模块
在过去近二十年时间里,超级计算机的计算能力呈指数增长,现已向百亿亿次量级(E级)迈进。巨大的挑战和机遇伴随着大规模的异构系统环境而到来。应用软件需要顺应超级计算机的发展
基于语义特征的模型信息的一体化表示方法具有十分重要的意义,既表示了模型的几何拓扑信息,满足了CAD环节的计算需要,也表示了其工艺材料及特征约束等语义属性信息,有利于CAE
实时系统是一类具有时间限制的系统,系统的正确性不仅仅取决于计算结果的正确性,也取决于得出结果的时间。传统的实时系统大多属于硬实时系统,这种系统一般运行环境明确、任
随着网络技术的发展,一些新型网络应用对数据的完整性验证提出了更高的功能与安全要求。尤其是无线传感器网络以及云存储的出现与发展,数据异地采集与存储的模式对数据完整性
如今,形式化方法越来越多地被应用到与生命财产安全密切相关的计算机软件领域。其中,编程语言的形式化操作语义起着一个重要的作用,比起通常用自然语言描述的编程语言规范,形
随着智能手机的普及,Android操作系统逐渐流行起来,并在2011年超越塞班,成为最流行的智能手机操作系统。Android巨大的市场占有率也吸引了众多的开发者为其开发应用程序。然