论文部分内容阅读
神秘果(Synsepalum dulcificum)是杜鹃花目(Ericales)山榄科(Sapotaceae)神秘果属(Synsepalum)的多年生灌木植物,是热带地区珍稀的国宝级果树,因其具有可以改变人类味觉的甜蛋白-神秘蛋白而闻名。该蛋白具有将人类对酸味的感知转变为甜味的活性,而这一特殊性质使得神秘蛋白不仅在甜味剂市场具有广阔的应用前景,在治疗糖尿病方面也有卓越的表现。此外,神秘果还含有蛋白质、维生素、氨基酸、膳食纤维等多种重要的营养物质。神秘果各组织中的提取物均具有重要的药用价值。虽然神秘果是集食用、药用及观赏于一身的重要热带果树,但是神秘果的基础研究仍十分薄弱。众所周知,一个高质量的神秘果参考基因组将极大地促进对神秘果的研究,包括神秘蛋白的功能及演化和神秘果各组织药用价值的开发等。为此,本研究对神秘果进行了全基因组测序,并组装得到染色体水平的参考基因组。基于高质量的神秘果参考基因组,同时结合代谢组和转录组,研究揭示了神秘果果实发育过程中的代谢物积累模式及基因表达趋势变化。此外,本研究还鉴定了神秘果组织特异高表达基因和组织特异高含量代谢物,初步解析了神秘果花青素合成的分子调控基础,进一步阐释了神秘果物种中神秘蛋白的特殊性质的潜在原因,为神秘果后续的遗传改良提供了理论基础。本研究取得的主要结果如下:1.神秘果染色体水平高质量参考基因组 使用流式细胞分析和K-mer分析评估了神秘果基因组大小,并使用核型分析研究了神秘果的倍性和染色体数目。参考上述结果,本研究利用三代测序平台Pacbio Sequel对神秘果基因组进行了测序,获得了119.57 Gb(226×)三代长读长序列,使用Illumina Hiseq 2000测序平台,获得的104.90 Gb(198×)二代短读长序列。基于三代组装、二代纠错的策略,最终得到大小为568.98 Mb的contig水平基因组,contig数量为63个,contig N50为14.14 Mb。使用Hi-C数据(122.72 Gb,231×)对基因组进行挂载,将63个contig顺利挂载到13条染色体上,挂载基因组大小为549.84 Mb,挂载率为96.63%,得到神秘果染色体水平的基因组。BUSCO评估显示,神秘果基因组有96.5%的完整基因元件可以在有胚植物数据库中被检测到。LAI(长末端重复序列组装指数)值分析显示神秘果基因组LAI值约为19.15。将Illumina、Pacbio、Hi-C数据重新比对到组装好的基因组上发现,其比对率分别达到99.29%、99.06%和93.64%。此外,30个RNA-seq数据的平均比对率为97.36%。以上数据均表明,本研究得到的神秘果基因组具有较高的完整性、准确性及连续性。2.神秘果基因组注释本研究采用从头预测和同源比对相结合的方法对神秘果基因组重复序列进行了鉴定,发现神秘果基因组含有53.60%的重复序列。其中,LTR(长末端重复序列)是主要类型,约占40.2%。随后,结合从头预测、同源比对和转录组预测三种策略对神秘果基因组进行了基因结构注释,共鉴定37,911个蛋白编码基因。非编码RNA注释结果显示,神秘果含有117个micro RNA、761个t RNA、215个r RNA和94个sn RNA。此外,还鉴定到神秘果中来自58个家族的1,967个转录因子。结合转录组数据发现,88.95%的基因至少可以在一个组织中表达。通过比对PFAM、COG、KEGG和GO数据库进行功能注释,发现81.37%的基因可以在至少一个数据库中注释到功能。3.神秘果比较基因组分析 本研究获得的神秘果基因组,是山榄科植物的第一个参考基因组,对在基因组水平确定山榄科植物在进化中的位置具有重要价值。因此,基于杜鹃花目已测序的7个科的物种,同时选取双子叶植物的代表物种葡萄和拟南芥,以单子叶植物水稻作为外群,利用单拷贝直系同源基因进行物种树构建和分歧时间评估。本研究共在11个物种中鉴定得到293个单拷贝直系同源基因,物种树结果显示神秘果与山茶科的茶树和柿科的油柿的亲缘关系最近。神秘果与油柿的分歧时间约为67.8百万年前(50.2-82.6MYA),神秘果与茶树的分歧时间约为63.5百万年前(45.4-78.5 MYA)。共线性分析发现神秘果基因组和葡萄基因组存在良好的2:1的线性关系。神秘果自身共线性分析发现,基因组上一个区域存在两个对应的线性区域。同义替换率分析(Ks)结果显示神秘果在Ks=0.56处有一个明显的峰值。说明神秘果发生过一次全基因组复制(WGD)事件。4.神秘果基因家族分析 为了进一步分析神秘果特有的性状与基因的关系,本研究对神秘果特有的基因家族及在进化中收缩和扩张的基因家族进行了分析。本研究选取了包括神秘果在内的6个物种(葡萄、油柿、猕猴桃、蔓越莓和蜡烛果)对神秘果特有的基因家族进行分析,发现神秘果特有的基因家族数量为1,041个。对特有基因家族进行GO富集发现,主要富集在萜类生物合成、植物抗毒素代谢过程、植物次生代谢过程、宿主对病毒防御反应的调节等生物过程中。KEGG富集结果显示主要富集在单萜生物合成、油菜素内酯生物合成、细胞色素P450合成、ABC转运等代谢通路上。对参与构建系统发育树的11个物种的基因家族分析结果显示,神秘果含有15,799个基因家族。结合系统发育树和物种分歧时间,推算出11个物种的最近共同祖先共有18,640个基因家族。进一步分析发现,神秘果3,828个基因家族发生扩张,4,739个基因家族发生收缩。显著扩张的基因家族的富集结果显示,其主要参与到对细菌和真菌的防御反应、免疫过程的正调节、苯丙烷生物合成、PPAR信号通路、DNA复制等生物学过程。显著收缩的基因家族的富集结果显示它们主要参与到单加氧酶活性、对紫外线的响应反应、木质素生物合成反应、单萜生物合成等生物学过程。5.果实发育过程中的代谢组和转录组变化及花青素合成调控基础的解析为了进一步研究神秘果各组织特殊成分和果实颜色变化及其形成的机制,本研究对神秘果成熟期的根、茎、叶、花及三个不同时期的果实和种子进行了代谢组检测和转录组测序。基于广泛靶向代谢组检测方法,从所有样本中共鉴定获得11个大类的737个代谢物。对各个组织特异高含量代谢物分析发现,神秘果根、茎、叶、花、果实及种子中分别有33、30、35、37、65和95个组织特异高含量代谢物。差异代谢物分析显示在神秘果果实从幼年期到变色期的转变中,植物激素的生物合成、维生素B6的代谢等通路中的代谢物不断得到富集,而果实变色期到成熟期的发育过程中,则是苯丙烷生物合成、谷胱甘肽代谢等通路中的代谢物得到富集。转录组分析发现,30个样本中有28,560个基因进行表达(FPKM>1)。差异基因分析发现,果实从幼年期到变色期,上调表达的基因主要富集在类黄酮生物合成、苯丙烷类生物合成、氨基酸代谢等过程。变色期到成熟期,上调表达的基因主要富集在对油菜素内酯的反应、植物激素信号转导、MAPK信号通路等过程。通过本研究得到的多组学数据与报道的相关数据,发现神秘果果实颜色变化是由花青素的积累引起的。根据已知的花青素合成通路,对神秘果变色期前后的花青素合成通路的主要基因进行了分析,共鉴定到25个结构基因可能参与花青素合成,此外还初步鉴定了10个正调控转录因子以及10个负调控转录因子可能调控花青素合成。6.神秘果中神秘蛋白特殊性质的潜在原因的解析及神秘蛋白功能研究转录组研究发现神秘蛋白(Miraculin)基因(MIR,Chr10G0299340)是神秘果果实中表达量最高的基因,FPKM值约为113,515。通过同源基因比对,鉴定了茶树、柿子及葡萄中的神秘蛋白的同源基因,发现神秘果中MIR的表达水平至少是其同源基因的上百倍。对MIR蛋白序列进行分析发现,相对同源基因,MIR具有特有的引导分泌功能的信号肽序列以及具有特有的味觉修饰活性的30位组氨酸残基。结合WGCNA分析、富集分析和代谢物相关性分析发现神秘蛋白基因具有调节种子萌发和成熟、抵抗病原菌感染、抵抗环境压力和调节植物生长发育等功能。综上,本研究获得了神秘果染色体水平的高质量基因组,通过比较基因组分析,发现神秘果在进化过程中发生了一次WGD事件,同时明确了山榄科在植物系统发育中的位置关系。此外,分析了果实发育过程的代谢组和转录组的变化,解析了神秘果花青素合成调控的分子基础,并阐释了神秘蛋白独特性质的潜在原因和对物种自身的功能。