论文部分内容阅读
甘蓝型油菜是我国重要的油料作物之一,种植面积常年稳居世界第一,菜籽油是我国传统的食用油,占国产食用植物油总量的50%以上。油菜是在约7,500年前由白菜和甘蓝自然杂交形成的异源四倍体物种。由于基因组间频繁的交流以及染色体加倍后的冗余基因丢失、亚功能化等,油菜的基因组内序列和基因的表达均积累了大量变异进而影响油菜表型。随着测序技术的发展,油菜研究领域已经积累了大量的基因组和转录组测序数据,并鉴定到影响重要表型的序列变异和候选基因。但是,目前仍缺少一套完整的油菜基因表达谱以及序列变异如何影响基因表达和代谢通路的系统解析。本研究利用273份覆盖油菜全生育期、全组织的高分辨率转录组搭建油菜转录组数据库Bn TIR;利用其中的种子发育26个时间点的基因表达谱,对油菜种子发育时期的基因表达调控网络进行解析并挖掘油脂合成和苯丙烷代谢相关的基因;开发大片段InDels鉴定工具Indel Ensembler,利用不同数据集以及在不同物种中对该工具的性能进行评估;对505份甘蓝型油菜进行大片段InDels鉴定,结合油菜种子发育时期的转录组数据对油菜中表达相关的大片段InDels(表达数量性状位点,eQTL)及其调控的基因(e Gene)进行全面展示。主要研究结果如下:1.油菜转录组资源收集和数据库搭建本研究收集了2,380份甘蓝型油菜的转录组,其中包括203份生物因素处理、811份非生物因素处理和1,366份正常组织材料。另外,对涵盖油菜全发育期的273个材料进行转录组测序,并搭建油菜转录组数据库Bn TIR。数据库中包含,21,506个拟南芥和油菜基因之间的直系同源关系,提供58个转录因子家族的共5,955个转录因子的信息查询以及11个油菜基因组和3个祖先二倍体基因组的序列提取功能,提供包括156万条边(基因-基因)的共表达网络和150万条边(转录因子-基因)的转录因子调控网络的检索功能。另外,提供e FP可视化、基因ID转换、序列比对、基因组浏览器和热图绘制等工具。该数据库的构建有助于研究者们快速挖掘候选基因、分析目标基因的表达特征,为基因的功能研究提供相应的基础和支撑。该数据库自2020年10月上线以来已被广泛使用,累计访问量超过4.38万次,访问者来自39个不同的国家和地区。2.油菜种子发育时期的基因表达调控分析和共表达网络构建为了系统分析油菜种子发育时期的基因表达调控并挖掘关键基因,本研究使用种子发育时期26个时间点的转录组构建加权基因共表达网络(WGCNA)。种子发育时期能够明显聚成5个亚群,分别与种子发育的胚胎发育、种子填充(快速积累和稳定期)、预备干燥期和干燥5个阶段对应,每个阶段均鉴定到一个功能特异的共表达模块。油菜种子发育的共表达模块中有35个核心基因与种子含油量全转录组关联分析(Transcriptome-wide association study,TWAS)的显著基因重叠,其中包含TT1、TT5、TT19和BAN等原花青素合成基因。分别构建了苯丙烷代谢和酰脂合成相关基因的调控网络。发现Bna A03.DOF4.4(Bna A03G0459300ZS)、Bna C07.MORC7(Bna C07G0460800ZS)和Bna C01.PGI1(Bna C01G0181100ZS)的表达量与种子含油量正相关而与皮壳率负相关。另外,鉴定到候选基因Bna A08.ACLA-3(Bna A08G0294900ZS)的表达量与种子含油量负相关而与皮壳率正相关。本研究对油菜种子发育时期的基因表达调控网络进行解析,鉴定到与苯丙烷代谢途径和脂肪酸合成共表达的基因,为理解种子发育时期物质合成的调控机制以及碳源分配提供有价值的参考。3.大片段InDels鉴定工具开发和性能评估本研究整合四个已有的方法开发了大片段InDels鉴定流程Indel Ensembler。利用拟南芥、大豆和油菜不同测序深度的数据对流程的准确性进行评估,并与软件GRIDSS和Manta进行性能比较。评估结果表明,该方法在不同测序深度的性能均强于或等同于GRIDSS和Manta。与已有的流程Ath CNV相比,Indel Ensembler鉴定到的InDels更完整、准确性更高。使用该流程在1,047个拟南芥材料中进行InDels鉴定,共得到34,093个缺失(DEL)、12,913个串联重复(DUP)和9,773个插入(INS)。大片段InDels倾向于分布在拟南芥的转座子基因和假基因以及基因间区而在蛋白编码基因和基因区域缺失。基于大片段InDels的全基因组关联分析(Genome-Wide Association Studies,GWAS),分别在拟南芥1号和4号染色体上鉴定到一个与开花期显著相关的新的DEL。该研究开发的高性能大片段InDels鉴定工具为挖掘影响拟南芥和其他物种基因组的结构变异提供重要工具。4.甘蓝型油菜大片段InDels鉴定和eQTL分析为了探究油菜中大片段InDels如何在全基因组水平通过影响基因表达来对表型产生影响,本研究利用505份甘蓝型油菜的重测序数据进行大片段InDels鉴定,结合种子发育不同时期的基因表达谱进行eQTL分析。结果表明,油菜基因组中共鉴定到119,948个大片段InDels,其中22,417个新的变异。DEL和DUP均在着丝粒附近富集,这表明油菜的着丝粒附近是变异的主要来源。eQTL结果显示,有9,465个eQTL与至少一个基因的表达显着相关,9,847个由eQTL调控的e Gene。顺式eQTL对表达变异的解释显著高于反式eQTL,54.1%的e Gene表达仅受单个eQTL调控,65.1%的eQTL仅调控单个基因,这说明大多数基因的表达变异是在相对简单的遗传控制下发生的。本研究鉴定的大片段InDels,为油菜复杂性状的遗传解析提供重要的遗传变异资源,鉴定到的大量eQTL和调控的e Gene,为油菜基因间的调控网络构建、基因调控机制解析提供重要支撑。