非比对的快速微生物分类与进化研究

来源 :清华大学 | 被引量 : 1次 | 上传用户:dbbzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微生物是一类结构简单、在自然界分布最广的生物,其中病毒和细菌是最常见的两类微生物。它们是大自然物质循环的主要参与者,能够对人类的活动产生巨大影响。随着测序技术的迅猛发展,研究者们已经测序出许多种微生物的基因组。采用序列分析的方法,研究这些微生物的分类,探究它们的起源和演化关系,是理解它们的功能的关键步骤,对微生物引起的传染病的预防、诊断也具有十分重要的实际价值。传统的多序列比对方法是十分有效的序列分析方法,一般能够构建较准确的生物进化关系。但是,病毒序列常常变异率很高,出现基因的插入删除,基因水平转移等现象,这些都导致多序列比对结果不准确。多序列比对方法所需要的时间与序列长度成正比,这导致它不适用于细菌和序列长度较大的病毒的分类和进化分析。在本文中,基于病毒的全蛋白质组数据,我们利用非序列比对的60维自然向量法,对七个巴尔的摩纲下的4000多个病毒分类,建立它们的进化关系。结果表明,我们的方法可以达到非常高的准确率。我们还系统比较了蛋白质组和基因组在病毒分类上的差异。我们发现,当病毒可靠蛋白质序列较充分的情况下,采用蛋白质组数据分类可以达到更好的效果;当病毒的可靠蛋白质序列缺失较多时,采用蛋白质序列对病毒分类的准确率较之基因也是相差很小的。另外,采用自然向量法,我们研究了最近爆发的寨卡病毒以及其它黄病毒的传播特征和进化关系。结论表明,寨卡病毒来自于非洲,然后传播到亚洲、太平洋并遍及到美洲。最后,我们提出了一种新的特征向量法,用于构建物种的进化关系。我们的特征向量法不仅利用了序列中核苷酸的分布特征,还包含了序列的生物化学性质。通过在病毒和细菌等微生物数据集上测试,我们的方法计算速度非常快且能够准确推断出生物的进化关系。
其他文献
近几年经济的快速发展与文化体制改革的不断推进,促进了我国文化产业与经济的融合。在国家政策的推动和引导下,文化与经济一体化发展的趋势显著增强。美术馆与书吧咖啡厅的结
雾是一种常见的大气现象,空气中悬浮的水滴、灰尘、细沙或其他颗粒等都会引起成像清晰度的降低。在雾天的成像过程中,远处物体的反射光无法穿过稠密大气到达摄像头,大气散射
房地产行业在近年来持续发展,也加剧了建筑施工企业之间的竞争。基于这种背景,在建筑工程施工过程中,必须加强现场施工管理,不断的提升施工质量,降低施工成本,提升施工企业整体的竞
涵洞过量沉降的成因很多,其主要原因是地基土的压缩变形和剪切破坏,通过采取地基加固、施工预压等处治方法进行治理,可有效的改善过量沉降,值得同行借鉴参考。
以某船整机舱全流场为研究对象,提出一种应用计算流体力学(Computational Fluid Dynamics,CFD)技术来判定机舱通风系统完善程度的研究方法,模拟整机舱空间的速度场和压力场。
阐述绿色核算的理论基础及其必要性,分析我国传统林业会计核算体系的局限性,提出林业会计应增加对环境成本和环境收益的核算,应将绿色会计的理论和方法应用于林业会计,并从林
以《骆驼祥子》整本书阅读教学为例,从整本书阅读的目标、内容、方法及评价四个方面分析有效阅读整本书的路径,最终提升学生的语文核心素养。
精品资源共享课程建设不仅是精品开放课程建设项目的组成部分,更是高等学校教学质量与教育改革工程的重要组成部分。线性代数精品资源共享课程的建设与探索,应该从课程现状、
【目的】探讨深低温对缺血缺氧大鼠大脑皮层信号转导分子2(Smad2)和信号转导分子4(Smad4)表达的影响和深低温脑保护的可能机制。【方法】取SD大鼠30只,随机分为3组:深低温停循环(DH
本论文共分为4个试验,研究了壳聚糖对蛋种鸡生产性能和脂质代谢的影响及其机制。试验采用单因子完全随机试验设计,将26周龄健康海兰褐蛋种鸡450只,随机分为5组,每组6个重复,