论文部分内容阅读
长非编码RNA(long non-coding RNA,lncRNA)是一类转录本长度大于200核酸的非编码RNA。随着高通量测序技术的广泛应用,已在生物体内发现大量lncRNA,其中有相当一部分的lncRNA具有重要的生物学功能,如参与胚胎干细胞凋零、细胞循环控制等细胞过程。在lncRNA的调控机制研究方面,已有一些模型被提出,如lncRNA能够招募或驱赶蛋白质对DNA的绑定、作为蛋白质复合体的骨架等。然而,lncRNA的机制和功能研究尚处于起始阶段。与蛋白质编码基因不同,大部分lncRNA不能用于产生蛋白质。同时,lncRNA与蛋白质编码基因或其转录产物--信使RNA(Messenger RNA,mRNA)有许多相似之处。在基因层面,lncRNA与蛋白质编码基因具有相似的组蛋白修饰轮廓和剪接信号;在转录过程中,lncRNA往往也是聚合酶的产物。基于长非编码RNA和蛋白质编码基因的特征和功能差异,推测两者的转录机制也有可能不同,进而影响功能表现。本文从预测和分析lncRNA的转录因子绑定位点(Transcription Factor Binding Site,TFBS)入手,研究lncRNA的转录过程。首先全面综述了 TFBS预测算法和TFBS模型数据库。在此基础上,提出了名为lncRScan-TFBS的生物信息学方法,该方法根据来自染色质免疫沉淀--高通量测序实验(ChIP-Seq)的数据,分析与lncRNA关联的TFBS。lncRScan-TFBS的功能主要包括:报告输入ChIP-Seq峰和基因的基本统计信息、转录起始位点(TranscirptionStartSite,TSS)与峰之间的距离,分别针对lncRNA和蛋白质编码基因的TFBS进行基序查找和富集度分析等。将 lncRScan-TFBS 应用于小鼠干细胞(Mouse Embryonic Stem Cell,mESC)的 ChIP-Seq数据,实验结果表明调控因子c-Myc、n-Myc、Esrrb、Klf4和Tcfcp211与CTCF的TFBS有重叠,说明它们共同参与转录调控过程。特别是,c-Myc和n-Myc的TFBS几乎完全重叠,并且它们都与CTCF的TFBS有较大的重叠,这表明它们可能通过这些相关的TF与CTCF紧密相互作用。实验结果并没有发现lncRNA特异性的转录因子绑定位点,但发现部分转录因子在调控lncRNA转录时,比调控蛋白质编码基因转录有更长的距离,这可能是lncRNA表达量较低的潜在原因。综上,lncRScan-TFBS可用于有效分析lncRNA的TFBS,进而帮助推断lncRNA特异性的转录模式。