论文部分内容阅读
随着生物医药技术以及计算机科学技术的发展,质谱分析技术在蛋白质组学及糖组学等多领域得到了应用,包括蛋白质鉴定、糖分子结构鉴定、生物标记物发现与疾病诊断建模等。 质谱分析技术主要分为两大类:库搜索方法和De Novo方法。理论谱预测作为基于质谱分析鉴定方法设计中的一个重要的环节,对于库搜索方法及De Novo方法的鉴定准确性都有很大的影响。然而大部分蛋白质鉴定软件在理论谱预测环节的设计太粗略,从而影响了最终鉴定结果的准确性。理论谱预测是指设计算法模型模拟蛋白质序列在质谱仪中碎裂的方式,从而构建一个理论的质谱用于跟实际质谱数据进行比较。 与蛋白质序列相比,糖树形分枝结构更为复杂,往往仅用二级质谱不足以实现糖分枝结构的准确鉴定。多级质谱分析可以通过对糖结构的连续多次碎裂,得到更多的结构信息从而实现对糖分枝结构的准确鉴定。但是,在鉴定过程中如何选择打谱路径产生多级质谱数据是一大难题。常规情况下,多级质谱的产生方式都是基于实验操作员的专业经验或者在当前质谱中选择峰强最强的离子峰产生下一级质谱的方法来得到多级质谱。但是,人工选峰的方法耗时、样品消耗量大,且往往鉴定不准确。 针对上述问题,本研究通过对蛋白质及糖在质谱仪中碎裂机理以及对计算机算法和统计模型的深入研究,取得了如下成果: (1)提出并实现了基于质子迁移模型的理论谱预测模型MS-Simulator 本研究提出了一种可用来预测给定肽段对应的y离子丰度的模型MS-Simulator。MS-Simulator模型基于质子迁移理论,通过对肽段相邻位置糖苷键断裂形成y离子的丰度比进行预测,然后根据丰度比信息计算离子峰的相对强度,结合离子质荷比信息构建理论谱。与现有的预测准确度最高的理论谱预测模型MassAnalyzer相比,MS-Simulator模型的参数训练过程更加简单,而且预测的y离子理论谱准确度比MassAnalyzer高。 (2)提出并实现了基于质谱词典的理论谱预测模型TagNovo 本研究提出了一种基于质谱词典的理论谱预测模型TagNovo,通过收集已有鉴定结果的质谱数据,对每一肽段分成多个5-mer长度的肽片段,然后从对应质谱中找其相应的局部质谱信息,每一5-mer片段及对应质谱局部信息构成一个词条,对大量的词条进行聚类形成质谱“词典”。TagNovo质谱词典模型可以用来实现理论谱的全谱预测,从而可以用来对现有谱库鉴定方法中稀缺的小物种生物通过对蛋白序列的理论谱预测实现谱库扩充,解决了谱库搜索方法的发展瓶颈。 (3)提出并实现了多级质谱糖分枝结构鉴定算法GIPS 本研究提出了利用多级质谱实现糖分枝结构自动鉴定模型GIPS。GIPS的创新点主要表现在以下两方面:1)提出了一种新的指导多级质谱打谱的选峰算法。通过计算多个可用来产生下一张质谱的母离子峰的信息量,选择可用来区分候选结构的信息量最大母离子峰(SMI峰)来产生下一张质谱。2)提出了基于层次贝叶斯模型的糖候选结构打分算法,用来实现选峰步骤中的信息量计算以及对糖鉴定结果打分。GIPS可以使用少量的打谱次数实现糖分枝结构的准确鉴定,避免了多级质谱的手动选峰打谱的低效性,提高了糖鉴定的灵敏度,减少了鉴定所需样品的消耗。 本研究提高了理论谱预测的精度,通过理论谱预测对鉴定结果重打分提高了已有蛋白质鉴定软件的准确性。提出了新的质谱词条库模型,解决了现有谱库搜索方法的局限性。提出了多级质谱糖鉴定策略,使得自动、快速、准确地对糖分枝结构鉴定成为可能。