论文部分内容阅读
目的: 长链非编码RNA研究目前面临几个重要的适合于计算分析的问题:(1)具有重要功能的IncRNA起源于哺乳动物进化的什么时期。(2)长链非编码RNA如何获得多个外显子以及功能域。(3)如何预测长链非编码RNA的DNA结合域和结合位点,从而预测长链非编码RNA的靶基因。(4)长链非编码RNA的DNA结合域是否有一个逐渐进化的过程。(5)长链非编码RNA呈现怎样的种系特异性,尤其是,人类与灵长类有哪些特异性的长链非编码RNA。针对这些问题,本研究的主要目的是:(1)揭示若干重要长链非编码RNA的起源;(2)揭示这些长链非编码RNA的进化特点,包括转座子对长链非编码RNA的进化影响:(3)揭示长链非编码RNA的种系特异性,尤其是灵长类或人类特异的长链非编码RNA;(4)揭示长链非编码RNA功能域起源与进化的特性;(5)设计开发预测长链非编码RNA:DNA的结合域与结合位点的算法与软件,分析典型长链非编码RNA的DNA结合域与结合位点。 方法: 针对上述研究目的,本研究采用并发展了如下研究方法。 1.识别人类长链非编码RNA在其它物种的直系同源物 根据基因组搜索来确定GENCODE项目报道的13562个人类长链非编码RNA和其它实验研究报道的重要长链非编码RNA在其它物种的同源序列。鉴于补偿性突变使得长链非编码RNA的同源序列具有序列保守性低而结构保守性高的特性,BLAST/BLAT不能可靠地搜索长链非编码RNA的同源序列,我们用基于结构比对的RNA搜索软件Infernal来搜索长链非编码RNA在多个物种的同源序列。大规模的基因组搜索在本地服务器和广州超级计算中心的天河二号计算机进行。 2.分析长链非编码RNA的序列特征与进化特征 用Phylip、MrBayes、 MEGA等构建进化树,用PAML软件分析进化速度,用EvoNC分析长链非编码RNA相对于参照基因所受的选择压力,用Phylip及MEGA和不同模型计算序列间距离(选用12S和16S rRNA作为中性参考序列),用Pmmulti和RNAalifold进行外显子结构比对,用RNAfold和Mfold预测外显子的保守结构。 3.根据人类长链非编码RNA的同源基因揭示人类与灵长类特异性长链非编码RNA 我们将13562个人类长链非编码RNA在16个哺乳类动物的直系同源状态转为离散数据,1表示该基因在某物种中存在直系同源基因,0表示该基因在某物种中不存在直系同源基因,然后基于这些离散状态估计长链非编码RNA在系统发育树下的gain/loss事件。 4.设计开发预测长链非编码RNA的DNA结合域与结合位点的软件LongTarget LongTarget软件主要立足于三点:全面的Hoogsteen和反Hoogsteen碱基配对规则、局部比对、以及对所有TFO/TTS预测的分析。我们通过系统回顾相关文献整理出24条Hoogsteen和反Hoogsteen碱基配对规则集,对于一段感兴趣的双链DNA区域,根据每一条碱基配对规则集重构四条RNA序列,根据局部比对同时识别一个长链非编码RNA的DNA结合域和这段DNA区域中的长链非编码RNA结合位点。我们用置换检验来评估预测结果的敏感性与专一性。 5.考察长链非编码RNA功能域的进化特性 使用LongTarget,我们不仅预测人类HOTAIR的DNA结合域,还预测其它物种HOTMR的DNA结合域,从而揭示HOTMR DNA结合域的种系差异和进化特性。 结果: 1.HOTMR的分析结果 HOTAIR的直系同源基因仅存在于真哺乳动物中,且外显子表现出种系特异性缺失,HOTMR exon2在dog、mouse和rat中没有找到直系同源序列,而且HOTAIR的功能域与保守区也表现出种系特异性缺失,长达1800bp的人类HOTMR exon6在灵长类中有得分较高的较完整的匹配,但在其它哺乳动物匹配的得分很低,尤其是在mouse和rat中仅有很短的匹配,一大段的保守区在mouse和rat HOTAIR缺失。 2.ANRIL的分析结果 与HOTAIR类似,没有在非哺乳脊椎动物、单孔目哺乳动物和有袋类哺乳动物中发现ANRIL的直系同源物。ANRIL的直系同源序列最早出现于贫齿目(sloth)和非洲兽总目(elephant)中,其基因结构逐渐在劳亚兽总目中丰富起来。但是,一方面,在免形目和啮齿目的分枝中ANRIL的外显子逐渐丢失,进而在mouse和rat中完全丢失,另一方面,在类人猿中ANRIL获得完整的基因结构和19个外显子。 ANRIL外显子在早期灵长类(tree shrew,tarsier)呈现出特殊和活跃的进化。多个转座子主要在类人猿插入ANRIL,转座子插入增进了ANRIL外显子序列与二级结构的保守性。 3.人类长链非编码RNA的种系特异性分析结果 由GENCODE项目第一期确定的13562个人类长链非编码RNA在其它物种的直系同源基因数目统计如下:单孔目哺乳动物platypus有1008个(7%),chimpanzee有13239个(98%),啮齿目动物中的mouse和rat分别为4416个(30%)和4099个(28%)。 用mix软件估计了长链非编码RNA在各个祖先节点的gain/loss数量,啮齿目、兔类、树鼩目和灵长目的早期共同祖先有7458个(55%)同源基因,在此之后,同源基因的数量在啮齿目和兔类祖先有逐渐降低的趋势,而在灵长目和树鼩目的祖先则迅速增多,在灵长目祖先增加到10498个(77%)。 4.长链非编码RNA的DNA结合域与结合位点预测算法 基于24条Hoogsteen和反Hoogsteen碱基配对规则集,开发了预测长链非编码RNA的DNA结合域和结合位点的软件LongTarget,该算法表现出高敏感性和专一性。 5.典型长链非编码RNA的DNA结合域与结合位点预测 用LongTarget分析了逾20个典型长链非编码RNA,并和Triplexator的预测结果进行了比较,我们发现LongTarget预测出来的DNA结合位点位于目标基因的启动子区域、CpG岛和转座子区域,而且与ChIP-seq实验揭示的染色质组蛋白甲基化区域高度吻合。相比而言,Triplexator的许多预测结果偏离了启动子区域等重要已知调控元件。 结论: 1.HOTAIR和ANRIL起源于真哺乳动物,HOTAIR在进化中获得功能域,而ANRIL则在进化中获得外显子,两个基因都表现出种系特异性进化特征,提示长链非编码RNA序列与功能的种系特异性,也提示长链非编码RNA与种系形成可能有密切关系。 2.ANRIL以及其它许多长链非编码RNA的形成与进化与转座子有密切的联系,转座子的插入及驯化对ANRIL外显子的序列、结构、保守性有显著的影响。长链非编码RNA与转座子的关系也是长链非编码RNA种系特异性的一个重要方面。 3.根据对13562个人类长链非编码RNA同源基因的分析,我们发现它们表现出明显的种系特异性,且大量人类长链非编码RNA是灵长类特有的,其中约2%是人类特有的。特别是,在单孔目哺乳动物platypus发现了1008个同源基因,提示部分长链非编码RNA的悠久起源。 4.LongTarget性能优于Triplexator,能有效预测长链非编码RNA的DNA结合域与结合位点,具有高敏感性和专一性。 5.根据LongTarget的预测结果,许多长链非编码RNA的DNA结合位点不仅落在基因的启动子和CpG位点,而且落在转座子位点,这提示基因组修饰对转座子抑制具有重要作用。