论文部分内容阅读
原生动物嗜热四膜虫作为重要的单细胞真核模式生物,在基础生物学研究中已经取得了一系列成就。目前该模式生物有两个版本的基因组注释模型,但受转录组数据量等因素的制约,这两个版本中预测的基因模型都还存在一定问题,缺乏对嗜热四膜虫可变剪接基因的注释。因此,基于更多转录组数据对嗜热四膜虫基因进行重注释显得尤为重要和迫切。 针对嗜热四膜虫已有基因组注释中存在的一些基因结构的不准确性以及预测基因的数量上的完整性等问题,本研究利用实验室已测序完成的24个嗜热四膜虫不同生理/发育时期的转录组数据(饥饿时期、生长时期、接合生殖时期),以嗜热四膜虫 SB210参考基因组序列为比对模板,通过生物信息学软件 Tophat及其下游一系列分析软件对嗜热四膜虫24个转录组数据进行了组装并合并,获得了30901个嗜热四膜虫转录本。再将这些转录本与嗜热四膜虫已有的两个基因组注释版本进行比较,通过软件直接比较筛选和部分基因人工矫正基因位点信息两种方法,共证实出在嗜热四膜虫已有注释模型中有22656个基因被转录组所支持,矫正了5206个存在基因结构及位置信息有误的基因,鉴定了234个新基因,再加以 Gbrowse网络图形化手段的辅助,最终确定了28096个嗜热四膜虫基因重注释的基因。 进一步对于预测出的嗜热四膜虫可变剪接基因进行了鉴定及分析。在此分析过程中,考虑到由于较多转录组数据带来的复杂性及软件拼接过程的不完整性,最终从中过滤选择了464个含有一条转录本与嗜热四膜虫已有基因模型相一致的可变剪接基因进行了鉴定和功能上的分析。研究表明:在嗜热四膜虫中存在的464个可变剪接基因,其剪接类型涵盖了4种常见的可变剪接的类型,其中以内含子保留这一剪接方式为主;在对其基因功能的分析中发现:嗜热四膜虫可变剪接基因在不同生理阶段会有特异表达,这些特异表达基因功能分类上有一定差异,但总体上以蛋白磷酸化这一生物过程为主,符合嗜热四膜虫本身含有较多数量的蛋白激酶这一特点。 嗜热四膜虫基因重注释以及可变剪接基因鉴定分析工作的完成,使得嗜热四膜虫在已有的基因组注释中预测的基因数量和质量上均有所增加。同时补充了嗜热四膜虫已有的基因组注释中对基因序列的信息,更重要的是填补了嗜热四膜虫基因组注释中关于可变剪接基因数量与功能上总体的研究与分析的空缺,为该模式生物的深入研究奠定了基础。 原生动物物种种类丰富,分布广泛。除嗜热四膜虫外,在原生动物纤毛虫中,浮萍棘尾虫作为其中的经典物种,其交配型不同于其他纤毛虫,数量可达上百种,相依的交配型决定机制多年来一直没有解决。随着生物信息学的发展,本研究利用实验室测序完成的7组不同交配型的浮萍棘尾虫转录组数据,对这一问题进行了初步尝试和探索,并在其已有的基因组序列的基础上初步得到了3条含有蛋白功能注释的候选转录本序列。作为其候选交配型决定基因,尚需进一步的功能验证。