论文部分内容阅读
目前人们认识到编码蛋白质的基因区域仅占整个人类基因组的1.5%,而一个细胞中大约80%的基因组DNA有迹象表明能够转录成RNA。除了编码蛋白的RNA外,那些非编码RNA都有些什么功能,大部分还不清楚。而在这些非编码RNA中,microRNA(miRNA)是目前研究较多的一种。MiRNA是植物、动物、一些单细胞生物和DNA病毒基因组编码的一类小分子非编码调控RNA。它们通过与靶标mRNA碱基互补结合并抑制mRNA的翻译或降解靶标mRNA的方式来调控基因表达的。大量的miRNA被发现和研究,但大部分miRNA的起源、演化及其功能不清楚。为了探究miRNA的起源和演化,发展了一套基于比较基因组学方法为主的,以利用基因组DNA大片段重复序列分析为辅的全基因组规模鉴定近邻物种miRNA的计算体系,系统地对以人、恒河猴与小鼠为代表的哺乳动物的miRNlA进行了深入的研究,并且以miR-1302家族为对象,深入分析了这个miRNA家族的起源和演化动力学。
针对当前全基因组规模计算预测miRNA基因技术上存在的问题,提出了一套新的基于比较基因组学的技术路线,即以一个物种的基因组与实验鉴定的miRNA作为参考数据,整合现有的算法工具,以全基因组规模鉴定另一个物种的miRNA。为了验证该方法的有效性,首先选择还没有miRNA相关研究报道的小绒猴基因组作为试验对象,从874个初选的mRNA序列中鉴定了526个miRNA基因。为了进一步验证这个方法的可靠性与健壮性,对miRBase16数据库已记录有miRNA的其它两个灵长类动物黑猩猩与红毛猩猩的miRNA基因进行了预测,分别鉴定了229个和230个新的miRNA基因,并且重新鉴定出已记录的miRNA基因分别占miRBase16数据库中的94.18%和93.14%。在后续演化分析的实验中,还发现了228个未报道的恒河猴miRNA基因及22个新的小鼠miRNA基因。根据现有基因组中DNA大片段重复数据的可获得性,进一步融合DNA大片段重复对(segment duplication pair)信息来鉴定相关miKNA的旁系同源序列。基于大片段重复对数据,在人类基因组中鉴定了12个未报道的旁系同源miRNA,在小鼠基因组中新发现了2个旁系同源miRNA。值得一提的是,首次提供了在人类Y染色体存在miRNA的计算证据。
重复序列(包含串联排列重复与散在重复元件)广泛分布于各类真核生物基因组中。人们发现重复序列中的转座子对基因组结构和功能的演化影响巨大。通过对以人、恒河猴与小鼠为代表的哺乳动物的miKNA的分析,发现了相当一部分的miRNA是与重复序列有关联的。在人的基因组中鉴定了278个重复序列相关的miRNA(RrmiR),其中包含226个重复序列衍生的miRNA(RdmiR)和52个可能是重复序列衍生的miRNA(PRdmiR),在恒河猴基因组中鉴定了141个RrmiR(115个RdmiR和26个PRdmiR),在小鼠基因组中鉴定了168个RrmiR(141个RdmiR和27个PRdmiR)。研究结果表明RrmiR和非重复序列衍生的miRNA(NRdmiR)在基因内部与基因间区的分布、在miRNA前体二级结构最小自由能和保守性方面都有显著的差异;发现了种系特异性和种系特异性扩张的RrmiR家族;同时也发现相当一部分RrmiR家族的形成与扩张是在DNA大片段重复事件中产生的,并且为这三个物种中保守的RrmiR家族的功能提供了计算与生物学实验的证据;通过文献挖掘,还发现不少RrmiR表达于肿瘤组织,并有一部分表达于中枢神经系统中。这表明在漫长的进化过程中,由重复序列创新而衍生的一些miRNA已在哺乳动物种群基因组中固定并承担了重要功能。
另外,也对miRNA家族的演化个案进行了深度研究。较为深入地分析了人类mir-1302家族的起源和演化。剖析了mir-1302家族是由DNA转座子MER53衍生的,而MER53产生于真兽类哺乳动物(胎盘哺乳动物)与有袋类哺乳动物分歧的最近的180,000,000年间的早期。首先在人类基因组中鉴定了36个潜在的miR-1302旁系同源基因,并在胎盘哺乳动物中鉴定了58个潜在的MER53衍生的人的miR-1302直系同源基因。通过一系列的分析发现该家族成员在以生灭模式(birth-and-death model)的演化机制下,(部分成员)经历了复杂的扩张即伴随Alu介导的DNA大片段重复而倍增。
总的来说,建立一套有效的全基因组规模计算鉴定同源miRNA的方法来搜索同源miRNA,并由此开展了起源于重复序列并部分倍增于基因组DNA大片段重复事件中的miRNA的演化研究,取得了有创新性的研究成果,提升了对miRNA的起源与演化的认识。并且研究工作是对了解基因组中大量非编码序列的演化和功能的一点贡献。