论文部分内容阅读
青藏高原,被誉为世界屋脊,平均海拔超过4000 m,为地球上海拔最高的地区。整个青藏高原总面积超过250万km2,是亚洲许多河流的发源地,也是全球生物多样性研究的热点。它具有典型的低氧和低温的环境特征。尽管在这样恶劣的环境条件下,仍有一些物种进化出能够适应高海拔的一些特征,从而更好的生活在这一地区,这些物种的适应进化过程中,受到正向选择和扩张的基因很多都与低氧和能量代谢的代谢通路有关。鰋鮡鱼类隶属于鲇形目鮡科鰋鮡亚科鰋鮡簇,包括10属71种,其中中国分布的有9属31种(http://www.calacademy.org/scientists/projects/catalog-of-fishes)。中国的鰋鮡鱼类分布于青藏高原及其周边的河流中,如雅鲁藏布江(布拉马普河)、伊洛瓦底江、怒江(萨尔温江上游)、澜沧江(湄公河上游)、金沙江(长江上游)、元江(红河)以及南盘江(珠江上游)流域。鰋鮡鱼类为青藏高原特有分布的三大鱼类之一(另外两大类为鲤形目的裂腹鱼和高原鳅)。虽然前人有一些文章报道了鰋鮡鱼类的系统发育、生物地理和进化。然而,这些研究都局限在很少的物种和基因取样上,他们的分析仅仅包括8-10个物种,并且仅仅用了几个线粒体或者核基因作为分子标记。结果使得系统发育位置上的一些关键节点支持率很低,褶鮡属、石爬鮡属、藏鰋属、凿齿鮡属以及原鮡属的系统发育关系没有得到很好的解决。本文分别从鰋鮡鱼类的线粒体基因组、核基因、转录组以及基因组水平,利用大数据的优势,对鰋鮡鱼类的系统发育关系、生物地理、以及高原适应进化等进行研究。主要结果如下:1.通过长距离PCR(Long-PCR)结合二代测序的方法,获得10个鰋鮡鱼类的线粒体基因组全序列,并从NCBI上下载了13个鰋鮡鱼类线粒体基因组序列。基于贝叶斯和最大似然法(Rax ML)分析鮡科鱼类系统发育关系显示中国的鮡科鱼类和鰋鮡鱼类均构成一个单系类群,且获得较高的支持率(贝叶斯后验概率PP=1.00;自展值BP=95)。粗尾褶鮡位于鮡科鱼类的基部,鰋鮡鱼类和非鰋鮡鱼类构成姐妹群。藏鰋的系统发育位置一直颇具争议,我们的结果支持它与其他的鰋鮡鱼类一起与黑斑原鮡构成姐妹群,黑斑原鮡为鰋鮡鱼类的基部类群。其中,与Beast的结果有些许不同,beast的结果支持藏鰋为鰋鮡鱼类的基部类群。鰋鮡鱼类的特化类群分为三个主要的谱系:第一个谱系包括黄石爬鮡和金沙江流域的鮡属(中华鮡和前臀鮡);第二个谱系包含怒江的异鮡属、细尾鮡和拟鰋属;第三个谱系为异齿鰋属、长尾鮡和大孔鮡。后两个谱系构成姐妹群,并与金沙江流域的鰋鮡隔离。鮡属不是一个单系类群。中国的鮡科鱼类起源于中新世晚期(c.7.7 Ma),鰋鮡鱼类稍晚(c.5.5 Mya),而鰋鮡鱼类的特化类群,如鮡属、拟鰋属、异齿鰋属和异鮡属起源于更新世和全新世。并且,特化的鰋鮡类群在上新世晚期到第四纪,物种爆发式形式。祖先地理分布区域重建显示鰋鮡鱼类的祖先在中新世晚期曾经广泛分布于青藏高原的雅鲁藏布江水系。另外,我们利用PAML的free-ratio模型,分别计算每个基因的替代速率,包括Ka、Ks和Ka/Ks值。对于大多数鰋鮡鱼类的分支,12个蛋白编码基因的Ka/Ks平均值显著高于非鰋鮡鱼类枝,说明鰋鮡鱼类在物种扩散形成的过程中了经历了快速进化。另外,基部的鰋鮡类群比特化的鰋鮡类群的Ka/Ks值低。除此之外,我们还利用branch-site模型,检验鰋鮡鱼类是否受到正向选择,我们发现鰋鮡鱼类比非鰋鮡鱼类有较高的Ka/Ks值。其中鰋鮡鱼类分支COX1基因的ωpss(ka/ks)为10.73,显著高于1(p-value=0.0002),也就是说鰋鮡鱼类共同祖先的COX1基因受到强烈的正向选择作用。同样,我们在其他特化的鰋鮡类群中也发现了正向选择的信号。以上结果说明了鰋鮡鱼类的线粒体基因受到青藏高原高海拔的选择作用,并对这一环境做出适应性进化。2.我们采用Evolmarker在线工具,通过比较斑马鱼(Danio rerio)、红鳍东方鲀(Takifugu rubripes)和斑点绿河豚(Tetraodon nigroviridis)三个基因组,成功筛选到3502个单拷贝的直系同源基因的分子标记(markers),长度分布在200 bp到5811 bp之间。我们根据斑马鱼的这3502个markers的CDS序列信息,设计了16,852目标捕获探针,用来捕获27个鮡科鱼类以及长臀鮠,并以捕获斑马鱼作为阳性对照(positive control)。最终Illumina测序得到共14,405,557的原始reads,对原始的reads进行过滤,去除质量低的reads。采用多K-mer分析策略,利用能够mapping到markers上的过滤后的reads进行从头(De novo)组装。结果对于28个物种,大鳍异齿鰋的捕获效率最低,成功捕获得到1514个目标基因,而捕获效率最高的为粗尾褶鮡,成功捕获到2416个目标基因。成功捕获的目标基因与原来的markers序列的平均相似性在80%到100%之间(图3.5)。为了更好的分析数据,我们把成功捕获到的基因分成两个基因集:A)“全物种”基因集,包括每个基因在28个物种都被成功捕获到的所有基因;B)“部分物种”基因集,包括所有在3个以上的物种中被成功捕获到的基因。Gblocks处理过后,“全物种”基因集剩下232个目标基因,占markers数目的6.6%;“部分物种”基因集剩下2494个目标基因,占markers数目的71.2%。由于不同的物种成功捕获的目标基因不完全相同,导致了以上两个基因集数目的不一致。“部分物种”基因集用于后续的系统法发育分析。我们串联这2494个基因,利用伽马分布模型作为最适模型(GTR+I+G)构建最大似然树、贝叶斯分区和不分区策略构建贝叶斯树,结果均得到鮡科鱼类一致的拓扑结构,仅在某些节点的支持率有些许差异。结果显示,鰋鮡不是一个单系类群,黑斑原鮡和凿齿鮡位于褶鮡属和(纹胸鮡,巨魾)之间,并且具有很高的支持率(最大似然法自展值,BP=99%;贝叶斯后验概率,PP=0.97)。褶鮡属为鮡科鱼类的基部类群,纹胸鮡属和巨魾构成一个单系后与其他的鰋鮡鱼类构成姐妹群(除黑斑原鮡和凿齿鮡之外)。而其他的没有争议的类群系统位置都比较清晰,均获得很高的支持率(最大似然法自展值,BP=100%;贝叶斯后验概率,PP=1.0),如异齿鰋属构成一个单系类群,拟鰋属也为单系群。特化的鰋鮡鱼类中,首先分化出来的是金沙江流域的类群,包括黄石爬鮡、前臀鮡和中华鮡。其他特化的鰋鮡鱼类主要分为两个枝:A枝包括异鮡属、细尾鮡、扁头异鮡、兰坪鮡和拟鰋属;B枝包括异齿鰋属、大孔鮡和长尾鮡。鮡属不是一个单系类群。为了验证鮡科鱼类系统关系的稳定性,我们对以上拓扑结构进行验证,并采用基因并联方法构建物种树,分析是否有长枝吸引、碱基偏倚效应以及数据集饱和性产生,结果均显示鰋鮡不是一个单系类群。3.我们选择海拔分布高低不同的3种代表性的鰋鮡鱼类:黑斑原鮡(G.maculatum,3800m-4000 m)、中华鮡(P.sinensis,1,000 m-2,000 m)和大孔鮡(P.macrotrema,<1,000 m)。同时选择分布广泛的鲇鱼(S.asotus)、黄颡鱼(P.fulvidraco)以及分布于非洲的倒游鲇(S.nigriventris)作为低海拔的对照。利用RNA-seq的方法,获得6个鲇鱼肝脏转录组的20,659,183-37,166,756的测序原始reads。对原始数据进行过滤,去除每个物种中低质量的reads后,利用Trinity的进行从头组装。结果获得6个物种组装好的contigs,并分别整合去除重叠和冗余的片段后,得到各自物种的Unigene集。为了得到更好的注释结果,我们采用了Unigene与斑马鱼的蛋白编码基因进行blastx比对、搜索Blast2GO、COGs和NR库等几种方法来对6个物种的Unigene进行注释。利用hamstr软件(基于hmmer搜索)以及分别与斑马鱼进行双向blast(E-value cutoff of 1e-10)两种方法来寻找6个物种的直系同源基因。首先,hamstr方法得到6个物种的708个直系同源基因,然而经过Gblocks处理,去掉低质量的基因集后,仅得到170个直系同源基因。而双向blast的方法得到的数据经过Gblocks处理后,得到总共1,656个直系同源基因,长度分布于150 bp到7155 bp之间。这1,656个直系同源基因集用于后续的分析。利用PAML中的free-ratio模型(M1模型),计算1,656个直系同源基因的Ka/Ks值,我们发现,其中有480个基因在3个高原分布的鰋鮡鱼类中的Ka/Ks值高于另外3个非高原分布的鲇形目鱼类。而3个鰋鮡中,中华鮡(P.sinensis)这一枝的Ka/Ks值最高。于是,从以上结果,比较各分支的Ka/Ks值,我们可以看出,鰋鮡鱼类与黄颡鱼分开后,有一个快速进化的过程。对这480个快速进化的基因进行GO聚类分析发现,他们主要与能量代谢、低氧应答以及DNA损伤修复有关。另外,为了评估某些特定谱系分支的进化,我们鉴定两类基因:(1)某一特定谱系分支的Ka/Ks值显著高于其他谱系分支的快速进化基因(fast-evolving genes,FEGs)和(2)某一特定谱系分支在某些位点上受到正向选择压力的基因(positively selected genes,PSGs)。结果,我们在3个鰋鮡鱼类中分别得到121-178个FEGs,而黄颡鱼中为63个;PSGs基因在鰋鮡中分别为58-244个,而黄颡鱼中为48个。以上结果表明,高原分布的鰋鮡鱼类的快速进化以及正向选择的基因数目均高于非高原分布的黄颡鱼。为了找出哪些基因与高原适应相关,我们把黑斑原鮡中的244个PSGs当作候选基因,鉴定其功能。最终,我们得到13个与低氧相关的候选基因,分别是:Slc2a8、Igfbp7、C2、Cp、Ndc1、Hspa5、Ttr、Gapdh、Prmt5、Srebf1、Perp、Map3k14以及Fam162a。