论文部分内容阅读
基因间长链非编码RNA(large intergenic non-coding RNA,linc RNA)是指基因间不编码蛋白质的长度大于200nt的RNA。最初,linc RNA被认为是基因组转录的“噪声”,不具备任何生物学功能。然而,随着第二代测序技术的发展及其所产生的大量数据,越来越多的linc RNA被识别,引起了人们的重视。至今,已有超过12000的linc RNAs被收录在人类基因组中。linc RNA参与转录调控和表观遗传调控,并且在多种疾病中发挥作用。另外,lin RNA和m RNA一样能和mi RNA结合,并通过该机制对m RNA的表达进行间接调控。基于linc RNA与m RNA竞争结合mi RNA的功能,我们分析linc RNA的序列结构特征,并分析linc RNA与m RNA的序列结构特征的差异。首先,我们将从TCGA网站下载的卵巢浆液性囊腺癌中的基因芯片表达谱整理成linc RNA,m RNA和mi RNA的表达数据矩阵。基于表达数据阵列,采用MINDy算法识别影响m RNA-mi RNA表达关系的linc RNAs。linc RNA,m RNA,mi RNA组成三元组,依据三元组中linc RNA表达值的高低将样本分成两个子集,ΔI代表两个子集中m RNA和linc RNA的互信息差值。ΔI的绝对值越高,linc RNA对mi RNA和m RNA表达关系的影响越大。我们得到上百万个ΔI不为0的三元组,说明linc RNA对m RNA-mi RNA的关系有一定的调控作用。其次,我们分析linc RNA的序列结构特征与linc RNA对m RNA-mi RNA表达关系调控作用的关系。结果显示linc RNA自身的一些特征,如序列长度,二级结构会在一定程度上影响linc RNA的作用。linc RNA上靶点区域的相关特征和linc RNA-mi RNA双链结合特征同样也会影响linc RNA的作用,包括靶点处的AU含量,靶点在序列上的位置以及linc RNA-mi RNA双链的最小自由能。此外,一些特定的SNP会破坏linc RNA局部乃至整体的结构,进而对linc RNA结合mi RNA产生影响。最后,围绕ΔI绝对值大于0.2的三元组,分析比较linc RNA和m RNA各自结合mi RNA的相关特征。我们发现m RNA的3’UTR长度比linc RNA序列长,在整条序列和序列上靶点区域的AU含量均大于linc RNA,而这些特征都是有利于结合mi RNA的。m RNA-mi RNA的双链结构比linc RNA-mi RNA的双链稳定,mi RNA在m RNA上的结合位点分布在序列两端而linc RNA上靶点分布较均匀。总体上,m RNA的序列结构特性比linc RNA更易与mi RNA结合。