论文部分内容阅读
水平基因转移(Horizontal Gene Transfer,HGT),又称侧向基因转移(lateral gene transfer,LGT),是指在差异生物个体之间,或单个细胞内部细胞器之间所进行的遗传物质的交流,包括通过内共生体进行的内共生基因转移(Endosymbiosis Gene Transfer,EGT)和散在的水平基因转移。水平基因转移的发生机制及其对物种适应性进化和多样性形成的贡献,是《科学》杂志发布的125个最具挑战性的科学问题之一。真核生物HGT的鉴定及验证较原核生物更具挑战性,囊泡藻界(Chromalveolata)为真核生物域六界之一,是双鞭毛真核生物与红藻发生单独的内共生后衍生出的所有后代物种的统称(包括硅藻、甲藻、褐藻),EGT和散在的HGT事件在该类群的演化过程中扮演了极为重要的角色,是真核生物基因转移研究的优良试验田。本研究以囊泡藻界5个大类群(CRASH:Cryptophytes,Rhizarians,Alveolates,Stramenopiles及Haptophytes)的全基因组序列为研究对象,鉴定了CRASH类群的散在HGT和EGT事件,评估了外源基因在CRASH类群进化中的主要贡献。首先对CRASH类群中散在的HGT进行了分析。以Refseq数据库为数据背景,通过以序列相似和系统发育为主,以评估基因组拼接和侧翼基因同源性验证污染为辅的研究方法,搭建了严格的HGT生物信息学筛选流程。在23个CRASH基因组中检测到0.16-1.44%的高可信度HGT基因,与进化学界关于真核生物基因组“1%HGT原则”一致。本研究以系统进化的聚类特征谨慎推断了 HGT基因贡献者的分布,结合原核贡献者的表型和习性推理了跨真原核尺度的水平基因转移事件发生的可能性。通过功能预测,发现HGT基因在CRASH类群的很多重要及典型代谢途径(如褐藻中褐藻胶合成)中扮演了重要角色;结合HGT基因在多个数据库(SEED,KEGG,EGGNOG,IPR2GO)中的家族分布特征,推断HGT基因推动了 CRASH类群的进化分歧,对当今CRASH类群进化格局的形成具有深刻影响。基于获得的高可信度HGT基因,本研究对真核与原核生物之间水平基因转移事件的多个重要理论假设进行了验证--原核来源的HGT基因虽然表现出了趋向于真核基因的适应进化,但仍然在编码区长度、内含子数量、基因CG比例、密码子使用偏好以及基因表达模式方面与真核生物存在显著差异,甚至留下了原核生物基因的部分特征印记。该结果回答了跨真原核尺度水平基因转移理论中存在已久的多个疑点,为众多生命进化历程中的大事件提供了重要的数据参考。本研究确定了高可信度HGT基因的筛选标准,搭建了 HGT研究的生信流程并自主开发了 HGT树形筛选工具NestedIN。研究结果扩大了诸多进化理论的适用类群,是HGT研究领域的重要突破和升华,为大遗传尺度下HGT研究提供了新的思路和视角。本研究的另一个内容是对CRASH中的EGT事件进行了鉴定和分析。研究设定CRASH类群为实验组,生物界其他门类的代表物种为对照组,通过实验物种与对照物种的双向最佳比对的序列相似性构建矩阵,发现了初级内共生和次级内共生的印迹,在次级内共生的印迹中发现了红藻和绿藻都是潜在的内共生体祖先;将实验组的蛋白序列在对照组用最佳BLAST比对的策略做调查取样,发现对照组中的红藻和绿藻对实验组的物种都有明显的最佳比对的信号;以实验组和对照组的蛋白序列构建了 15726个基因家族,根据各物种在基因家族中的分布信息构建聚类群,发现了真核与原核之间及光合与非光合生物之间明显的聚类界限,且CRASH物种与绿藻的聚类关系要强于其与红藻的聚类关系;对涉及EGT事件的5197个基因家族构建最大似然进化树,分析树形结构后鉴定出2720个Green基因、763个Red基因和1687个RNG基因;在基因家族中分别找到这些EGT基因在绿藻或者红藻的进化树单系统上最相似的同源基因,并以此计算序列一致性和dS等参数,经过比较分析后推断CRASH祖先吞噬绿藻内共生体的时间要早与吞噬红藻内共生体的时间;这些EGT基因目前与叶绿体的联系紧密,大约15%EGT基因含有进入叶绿体的导肽序列;对EGT基因进行功能预测,发现Green、Red、RNG基因虽在功能单元上有重合,但是也各自有特异的功能单元,如Green基因在核酸代谢、糖类代谢、氨基酸代谢中发挥作用,而Red基因在光合电子传递等途径中发挥作用。最后,我们通过CRASH类群中广泛收集的600个转录组,比较HGT和基因组核心基因(Core),以及EGT基因中的Green和Red的表达差异。研究发现,原核生物源的HGT基因在真核生物体内表现出比Core基因更低的表达水平;胁迫条件下的表达不如Core基因稳定,更趋向于特定环境下的特异表达。这说明了原核来源的基因已经在一定程度上被真核生物的基因组所驯化,在真核生物表型和生态位的扩张上做出了贡献。内共生转移的EGT基因的表达模式在Green和Red中没有太大的差别,表达量上Red基因稍高于Green基因,他们都在CRASH的核心代谢途径上担任重要角色,表达量都较为丰富。