论文部分内容阅读
丝尾鳠(Hemibagrus wyckioides)隶属于鲇形目、鲿科,主要分布于澜沧江-湄公河流域,是东南亚地区及我国云南省土著经济鱼类。丝尾鳠存在性别二态性(Sex Dimorphism),雄性的生长速率高于雌性。其营养价值高、生长速度快、耐低氧且抗病力强,是一种优质养殖鱼类。但近年来由于水电站的大量建设和人为滥捕,澜沧江-湄公河流域的野生丝尾鳠数量急剧减少。基因组学的发展为丝尾鳠的人工养殖和野生群体的保护创造了可能性。丝尾鳠染色体水平基因组的获得,不仅为后续丝尾鳠的群体遗传、保护生物学和功能基因组学研究提供可利用的基因组资源,同时能够促进其分子标记辅助育种以及性控育种技术的发展。因此,基于二代和三代测序数据,本研究组装了染色体水平的丝尾鳠基因组序列,基于丝尾鳠全基因组进行了进化分析并初步探讨了其功能基因。主要研究内容和结果如下:1.丝尾鳠染色体水平基因组组装与注释本研究中的丝尾鳠样品来自云南西双版纳澜沧江水系,使用Illumina测序技术共获得45.89 Gb的原始数据,基于以上数据对丝尾鳠的基因组大小和杂合度进行估算,K-mer分析结果表明丝尾鳠基因组大小约为779.64 Mb,杂合度为0.3%。组装过程中,使用Next Denovo软件进行三代测序结果的组装(Nano Pore和Pac Bio测序数据),最终基因组大小为789.79 Mb,Contig N50为22.08 Mb,说明丝尾鳠基因组组装质量较好。同时,借助Hi-C技术对基因组进行辅助组装,将大部分序列定位到29条染色体上,以构建染色体水平的基因组,Hi-C挂载率为97.70%。结合从头预测、同源预测、基于转录组数据的预测对丝尾鳠基因组进行蛋白编码基因的预测,同时,也注释基因组的重复序列和非编码RNA。丝尾鳠基因组的重复序列占比为40.12%,其中串联重复序列(TRs)占比为2.99%、散在重复序列(主要是TE重复序列)占比为37.13%。丝尾鳠的基因组中共注释得到22794个基因,通过BUSCO软件,辐鳍鱼类数据库(actinopterygii_odb10)中的单拷贝直系同源基因被用来预测基因的完整度,结果表明丝尾鳠基因组中可以找到约94.59%的完整基因元件,说明预测到的大部分保守基因比较完整。同时,在平均CDS长度、每个基因中平均外显子个数、平均外显子长度以及平均内含子长度方面,丝尾鳠与黄颡鱼(Tachysurus fulvidraco)、巨魾(Bagarius yarrelli)和黑斑原鮡(Glyptosternon maculatum)等近缘物种的分布趋势一致。此外,全基因组共线性分析表明,丝尾鳠和斑点叉尾鮰的基因组序列有较好的共线性,表明丝尾鳠基因组组装注释结果有较高的准确性和完整性。2.基于全基因组的丝尾鳠进化分析及其功能基因初探为了探究丝尾鳠及其相关类群的系统演化关系以及分化时间,本研究进行了系统发育分析以及松散分子钟估算。我们基于Ortho MCL对所选的18个物种进行了基因家族聚类分析,将所选物种的所有蛋白质序列做Blastp比对(Li&Lu,2019;E-value≤1e-5),其他参数默认,最后使用马尔可夫模型聚类算法,进而得到各物种的直系同源基因、旁系同源基因和单拷贝直系同源基因。利用单拷贝直系同源基因构建丝尾鳠(H.wyckioides)、黄颡鱼(T.fulvidraco)、巨魾(B.yarrelli)、斑马鱼(Danio rerio)和青鳉(Oryzias latipes)等18种真骨鱼类的系统发育树并估算分化时间,用斑点雀鳝(Lepisosteus oculatus)作为外类群。系统发育分析结果表明丝尾鳠与同属于鲿科的黄颡鱼聚为一支,鲇形目的南方鲇(Silurus meridionalis)、低眼巨鲇(Pangasianodon hypophthalmus)、斑点叉尾鮰(Ictalurus punctatus)等9个物种形成一单系类群,鲇形目物种与电鳗目物种形成姐妹群关系,鲇形目和耳鳔系(Otophysa)鱼类的单系性均得以支持。分化时间估算结果表明耳鳔系鱼类约在235百万年前开始分化,鲇形目鱼类与电鳗目鱼类约在118百万年前从其最近共同祖先分化出来,丝尾鳠与黄颡鱼约在42百万年前发生分化。为了初步探索丝尾鳠生长速度快、个体大以及耐低氧等重要生物学特性相关的功能基因,本研究对丝尾鳠基因组进行了基因家族聚类分析、正选择基因分析以及基因家族扩张收缩分析。结果表明,在分析的18个物种中,丝尾鳠特异unique基因(基因家族聚类分析中,仅聚类到丝尾鳠,而其他物种聚类数为0)有383个,其中,hba1基因主要功能为将氧气运输到机体各个组织,其可能在丝尾鳠对水体低氧环境耐受过程中发挥作用。丝尾鳠中9个基因受到了正选择,即col4a6、elovl1、emx1、id2、mag、ndrg4-a、plekhf2、pqlc1和tchp,其中,col4a6、id2、mag、plekhf2和tchp基因与疾病相关,emx1和ndrg4-a与生长发育相关,elovl与脂质代谢相关。与其他17个物种相比,在丝尾鳠的进化历程中有398个基因家族发生了扩张,显著扩张的基因家族主要富集在4类KEGG通路中:(1)免疫相关通路;(2)代谢相关通路;(3)生长发育相关通路;(4)环境信息处理通路。其中,丝尾鳠的MHC I基因发生了扩张(13个拷贝),并富集在抗原加工提呈免疫相关通路上。MHC基因是脊椎动物适应性免疫系统的重要组成部分,在上皮组织和淋巴组织中高表达,并负责识别和呈递外来抗原,因此,丝尾鳠较强的抗病力可能与MHCⅠ基因的扩张相关;另外,丝尾鳠ocr4基因发生了扩张(11个拷贝),其富集到的减数分裂和细胞周期等生物学通路是丝尾鳠生长发育过程中的重要通路,该基因家族在细胞增殖过程中必不可少,丝尾鳠较大的体型以及较快的生长速度等生物学特性可能与此类生长发育相关基因的扩张有关。