蛋白质组海量质谱数据的深度解析研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:bxybxy0531
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质组学是指在大规模水平上研究蛋白质的特征,包括蛋白质的表达水平、翻译后修饰、相互作用等,并由此获得蛋白质水平上关于疾病发生、细胞代谢等过程的全面认识。目前,蛋白质组学已经成为本世纪生命科学的研究重点。其中,人们主要使用质谱技术对生物样品进行分析,基于质谱数据的蛋白质鉴定已经成为蛋白质组学的核心技术。  尽管质谱仪和相关计算技术近年来发展迅速,但由于质谱数据的规模巨大,而且生成机理非常复杂,因此,对质谱数据进行深入、完整和高效地分析十分困难,一个直接的表现就是质谱数据的解析率不高。据统计,在较早的中低质量精度数据上,质谱数据解析率仅为15%~35%;即使在领域内著名实验室产出的高精度数据上,解析率也只有50%左右。质谱数据的解析率不高直接影响着肽段和蛋白质鉴定数目和鉴定精度的提高,因此,海量质谱数据的深度解析问题亟待解决。本文正是围绕这一问题开展了一系列研究。通过对质谱数据解析的两大类方法:从头测序和数据库搜索的现状进行分析和调研,本文分别设计和实现了新的从头测序系列算法pNovo和数据库搜索方法Alioth,并在此基础上提出了一种数据库搜索的深度解析流程pExplore,在四组典型质谱数据集上均达到了60%~80%的解析率。  从头测序是指直接从串联质谱图推导出肽段序列的方法,它在谱图解析过程中完全不依赖蛋白质数据库,而是通过质谱图中的连续谱峰的质量差推导出整个序列。针对从头测序问题,本文分析了高精度HCD串联质谱的质量精度高、离子检测范围广和碎片离子信息丰富等优势,并在充分利用HCD谱图特点的基础上设计了从头测序算法pNovo。在标准蛋白质样品和复杂的线虫样品生成的测试数据集上,pNovo算法的测试结果显示,前十名肽段包含正确结果的谱图数目均达到或超过谱图总数的80%。进一步地,本文利用pNovo算法参与了线虫精细胞活化的相关研究。该项研究发现了在猪蛔虫Ascaris suum的精细胞活化过程和精子竞争过程中,两种关键蛋白质As_Srp-1和As_Try-5的作用,并阐明了其中较为完整的调控机制。其中,我们利用pNovo算法分析了多种酶切产生的HCD和ETD谱图。在揭示上述两种重要蛋白质身份的过程中,pNovo算法发挥了非常关键的作用。以多酶切和多碎裂谱图从头测序的实际应用为基础,我们针对高精度HCD和ETD谱图对(spectral pair)设计了新的从头测序算法pNovo+,并在多种酶切产生的数据集中进行测试。HCD和ETD两种碎裂类型有很强的互补性,这使得肽段碎裂信息的完整性大大提高;同时,我们又基于对HCD和ETD谱图特征的挖掘,设计了新的肽谱匹配打分算法。测试表明,使用HCD与ETD谱图对进行从头测序,在测试数据集上前三名结果的平均正确率约为92%,比单独使用HCD或ETD分别多出25%和55%,比二者结果的并集也多出了13%。同时,pNovo+算法的速度相对同类算法而言也有大幅提升。目前,在长度不超过19的肽段数据上,测序速度可以达到每秒钟50张谱图或谱图对,接近甚至超过目前几种主流质谱仪的数据产出速度。  在数据库搜索方面,本文通过对限定式和开放式两种搜索方式历史与现状的分析比较,认为在高精度质谱条件下,开放式搜索方式有可能变得更加重要和有效。本文提出了一种开放式搜索算法Alioth,用以针对任意的酶切、修饰和突变类型进行开放式数据库搜索。Alioth算法的关键环节包括:1)创建序列片段索引,保证算法可以由任意质量数值检索到数据库中所有与之对应的序列片段;2)提取谱图中的可信谱峰,用来查询序列片段索引,有效地过滤出可信度较高的序列区域;3)通过肽谱匹配的精细打分对肽段进行排序,以及4)基于肽谱匹配的更多特征,设计重打分策略对肽段可信度进行重新估计。通过高效的索引创建和查询,大多数可信度较低的候选肽段被快速过滤,而后续的细打分和重打分过程,则可以有效地将真实候选肽与错误候选肽区分开来,使算法具有较高的准确率。Alioth在模拟数据集以及真实的复杂生物样品数据集上和其它软件进行对比,在精度和速度方面,Alioth均具有一定的优势:精度方面,Alioth在一组模拟数据集和一组线虫样品的标注数据集上分别正确鉴定到超过95%和96%的谱图;速度方面,Alioth的速度比指定非特异性酶切和多种修饰类型的限定式搜索方法快10~70倍,比其它类似的开放式检索软件快5~60倍。总之,Alioth作为一种全新的开放式搜索算法,在考虑任意修饰和酶切类型的巨大搜索空间上实现了高效的蛋白质鉴定。  最后,本文提出了一种结合开放式与限定式数据库搜索的质谱鉴定流程pExplore,并在多组数据集上进行了实验。在Q Exactive仪器生成的腾冲嗜热菌数据集上,常规条件下,使用pFind进行限定式检索,谱图解析率仅为16%;而通过pExplore的分析,我们发现66%的谱图可以可靠鉴定,解析率为常规搜索的4倍以上。深度解析得到的蛋白质数目增长了9%,同时,可靠度较低的单肽段对应蛋白质(One Hit Wonder)反而减少了15%,这进一步说明深度解析不仅增加了蛋白质鉴定数目,而且使鉴定结果的可靠程度也有一定程度的提高。此外,本文还分析了四组不同实验室产生的典型的高通量生物质谱数据,发现四组质谱数据的解析率均可稳定地达到60%~80%。因此,我们认为常规的限定式搜索得到的结果是极其不稳定的,它更依赖于实验条件及数据分析者的经验;相反,深度解析流程pExplore在不同数据集上均可得到相对稳定并且数量更多的鉴定谱图,并可以给出数据中的修饰、酶切类型等统计信息,为用户呈现更为丰富全面的鉴定结果。
其他文献
随着大数据时代的来临,大规模分布式数据存储技术给关系型数据库带来了前所未有的挑战。面对海量非结构化数据的高效存储和低延迟查询的要求,传统的关系型数据库已经显得力不从
随着社会的不断发展进步,IT技术已经逐步渗透到各个传统行业,并在生产实践中扮演越来越重要的角色。传统的IT教育方式已经不能很好地满足社会对IT从业人员的需求。与此同时,在线
随着移动智能网的发展成熟,网络中业务系统越来越多,规模也越来越大,复杂性越来越高,给移动智能网网管工作带来了巨大的挑战。为了提高维护质量、降低维护成本和维护风险,本
随着互联网的迅猛发展,互联网媒体类型越来越丰富,其内容也越来越多。在信息爆炸时代,从庞大的数据中筛选出有价值的信息就显得尤为迫切。面向指定媒体类型的金融信息推荐系
由于数据量的迅速膨胀及性能需求的日益提高,缓存在存储系统中的作用变得更加重要,缓存的容量在逐渐变大。然而“大数据”时代不仅仅是数据量的膨胀,数据的访问模式也发生了很大
随着近年来国家对应急通信技术的深入关注,相关的应急预案以及行业标准已经逐渐制定成型。隶属于工业与信息化部的中国通信标准协会基于国务院发布的《国家突发公共事件总体
视觉作为人类的主要的感知机能之一,对人类感知世界的重要性不言而喻。计算机视觉的任务就是为计算机赋予接近甚至超过人类视觉的感知能力。图像作为计算机视觉任务的主要输入
网页木马(drive-by download)已经成为互联网用户面临的最严重的安全威胁之一,基于Internet网页爬取的主动方式的网页木马监测服务则成为一种重要的反制手段。由于包含网页木
从最初基于手工作坊式到实现大规模异构、分布的软件生产过程中,越来越多的人认为提高软件生产效率和产品质量的核心在于软件过程管理。因此学术界涌现出了大量关于软件过程
学位