论文部分内容阅读
大麻(Cannabis sativa L.)是大麻科、大麻属的一年生药用植物,大多雌雄异株。目前从大麻中分离出500多种化合物,其中大麻素类化合物是大麻特有的主要活性成分,在抗癫痫、抗焦虑及抗抑郁中具有显著疗效。近年来,由于大麻的巨大经济价值及重要药用价值,大麻素类化合物的生物合成途经解析及其调控机制成为研究热点。非编码RNA在植物生长发育、开花时间及非生物胁迫等生物学过程均具有调控作用。本研究通过转录组结合代谢组分析,在大麻细胞核基因组内筛选及验证对大麻素类化合物生物合成具有调控作用的天然反义转录本(natural antisense transcript,NAT)及环状 RNA(circular RNA,circRNA)。同时,de novo 组装了大麻的线粒体及叶绿体,鉴定了来源于细胞器基因组的与大麻素类化合物生物合成相关的circRNA,最后整合以上数据及已公布的大麻基因组及miRNA数据构建大麻非编码RNA大数据分析平台,主要结果如下:(1)大麻核基因组编码的NAT的鉴定、验证及功能分析。本研究采用lncRNA的链特异性建库方法,利用Illumina测序平台获得链特异性转录组数据,建立了大麻NAT的生物信息学的预测流程,基于链特异性转录组数据,在叶、根和茎中共预测到260条基因组NAT,其中92条cis-NAT及168条trans-NAT。大麻cis-NAT与正义链转录本(Sense Transcript,ST)构象类型以ST包含NAT构象类型为主。通过链特异性实时定量 PCR(strand-specific quantitative real-time PCR,ssRT-qPCR)验证25对NAT与ST的表达谱,结果显示92%的转录本与ssRNA-seq获得的表达谱结果一致,且13对NAT与ST的表达谱呈显著正相关(r≥0.9)。功能富集分析结果显示NAT对应的ST可能参与大麻生长发育及生物抗逆相关途径,结合NAT的差异表达及NAT与ST相关性分析发现NAT024可能对大麻素生物合成具有调控作用。(2)大麻核基因组编码的circRNA的鉴定、验证及功能分析。本研究采用circRNA建库流程,利用Illumina测序平台进行高通量测序,使用多种生物信息学分析流程在大麻叶、根和茎中最终预测到741个基因组circRNA,其中97%来源于外显子,3%来源于内含子及基因间区。基于RT-PCR及Sanger测序对随机选择的50个circRNA进行验证,25个验证成功。这25个circRNA与其对应源基因表达谱的相关性结果显示,8个circRNA与源基因表达谱呈显著正相关(p<0.05,r≥0.5),分别为 ciR0159、ciR0006、ciR0008、ciR0045、ciR0019、ciR0022、ciR0035、ciR0014;4个circRNA与源基因表达谱呈显著负相关(p<0.05,r≤-0.5),分别为ciR0044、ciR0023、ciR0030、ciR0042。基于circRNA与源基因相关性、差异表达及功能富集分析发现1个来源于大麻素类化合物生物合成途径基因的circRNA(ciR0159),可能对大麻素生物合成具有调控作用。(3)大麻细胞器基因组编码的circRNA的鉴定及功能分析。本研究基于Nanopore及Illumina测序数据,组装了大麻线粒体基因组。组装结果显示大麻线粒体基因组为复杂的多分枝聚合结构,由一条主染色体及许多重组DNA片段构成。主染色体为一个单体环状分子,总长415,837bp,包含其所有的基因。根据长reads比对确认了 28对重复序列介导的重组,进一步通过PCR及Sanger测序验证出其中15对重复序列介导产生的重组产物。基于Nanopore和Illumina测序数据组装了大麻叶绿体基因组,组装结果显示大麻叶绿体基因组为单一环状结构,总长153,927bp,具有典型的四分状结构。系统进化分析结果显示,大麻与桑科最接近且基于两个细胞器基因组中蛋白质序列构建的系统发育树具有相似的拓扑结构。基于以上组装的大麻线粒体及叶绿体基因组结合ssRNA-seq数据进行细胞器基因组circRNA的鉴定,在大麻线粒体基因组中鉴定出59个circRNA,其中56%来源于外显子-内含子区域,44%来源于外显子以及基因间区。功能分析结果显示大麻线粒体基因组中circRNA源基因可能具有导致植物细胞质雄性不育的特点。在大麻叶绿体基因组中鉴定出14个circRNA,其中64%来源于外显子区域,36%来源于外显子-内含子区域。功能分析结果显示大麻叶绿体基因组中circRNA源基因是参与光合作用的重要基因,可能对大麻参与光合作用及发育相关基因具有调控作用。(4)大麻素类化合物生物合成相关非编码RNA的发现。本研究对大麻叶、根、茎中的代谢物进行成分检测与含量测定。通过保留时间、相对分子质量和裂解碎片的质荷比最终确定了 28种大麻素类化合物的化学组成。基于大麻代谢组学及核基因组和细胞器基因组非编码RNA的表达水平进行加权基因共表达网络分析,发现核基因组编码的12个与大麻素生物合成相关的NAT及circRNA:来源于基因APT、4-hydroxytetrahydrodipicolinate reductase 的 2 个 NAT(NAT024、NAT036)的表达谱与CBD及Δ9-THC的含量均呈显著负相关(r<-0.6,p<0.05),与Cannflavin F及Cannflavin D呈显著正相关(r>0.6,p<0.05),其中NAT024来源于调控大麻素类化合物生物合成途径中脂肪酸的APT基因;来源于基因DXS1、SS、SKP1、MET1及 3-epi-6-deoxycatasterone 23-monooxygenase 的 5 个 circRNA(ciR0159、ciR0212、ciR0153、ciR0149及ciR0016)的表达谱与主要大麻素类化合物CBD、Δ9-THC、CBN的含量呈显著正相关(r>0.6,p<0.05),其中ciR0159来源于大麻素类化合物生物合成途径中DXS基因。来源于基因ORPs、LACS、HOS1、FtsH12、MUCU的5 个 circRNA(ciR0006、ciR0025、ciR0022、ciR0044 及 ciR0381)的表达谱与 CBD、Δ9-THC、CBGA及其前体CBDA、Δ9-THCA和CBGVA的含量呈显著负相关(r<-0.6,p<0.05)。发现细胞器基因组编码的10个与大麻素生物合成相关circRNA:来源于基因 rrn5、atp9 的 3 个线粒体 circRNA(ciRmito035、ciRmito003、ciRmito027)以及来源于基因rbcL、psbA、atpB、pabZ及rps8 的 7 个叶绿体 circRNA(ciRcp001、ciRcp002、ciRcp007、ciRcp008、ciRcp011、ciRcp012 及 ciRcp013)。(5)大麻非编码RNA大数据分析平台的构建。本研究基于以上研究结果结合大麻基因组及miRNA数据构建了大麻非编码RNA大数据分析平台(Casa-ncRNADB,http://www.1kmpg.cn/casa-ncRNADB)。该分析平台涵盖以上研究结果的大麻信息可供研究人员浏览及下载,还提供BLAST、Search等工具用于数据分析。此外,该平台具有新闻动态浏览页面、联系及注册页面等行政管理功能。总之,本研究系统鉴定了大麻细胞核及细胞器中的NAT和circRNA。结合转录组和代谢组的分析,我们发现了与大麻素生物合成有关的NAT和circRNA。最后,我们构建了一个大麻非编码RNA数据库,用于储存、综合分析和挖掘大麻中的非编码RNA。