论文部分内容阅读
目的:随着基因测序技术的不断发展,人类基因组中越来越多的长链非编码RNA(long-noncoding RNA,lncRNA)被鉴定出来。大量的研究表明,lncRNA在细胞的众多生命活动中发挥着重要的调控作用,部分lncRNA在癌症中异常表达,在癌症的发生、发展中扮演着重要的角色。然而,大多数lncRNA在癌症中的功能却未知,因此,鉴定癌症相关的lncRNA及其功能已成为生命科学领域的研究热点之一。生物信息学方法基于丰富的测序等高通量数据、较为成熟的算法及高效的计算机工具,已成为基因功能研究的主要手段之一,其中包括对lncRNA的鉴定与功能注释。本研究基于CRISPR在多种癌细胞系中的全基因组筛选数据,运用生物信息学方法获取癌症相关的蛋白编码基因,并利用统计学模型预测癌症相关的lncRNA,进而预测其有关的调控分子,构建调节网络,实现对癌症相关lncRNA的功能注释。 方法:本研究利用CRISPR在69个癌细胞系样本中的全基因组筛选测序数据,获取到1231个癌症相关的蛋白编码基因,基于所整合的蛋白编码基因—lncRNA共表达、蛋白编码基因与蛋白编码基因共表达、及蛋白蛋白相互作用(protein protein interaction,PPI)三种关系的网络,采用超几何分布富集分析和重启随机游走算法,预测癌症相关的lncRNA,再应用多种生物信息学工具预测与lncRNA存在调控关系的转录因子、miRNA、RNA结合蛋白、存在ceRNA调节关系的mRNA,通过对与lncRNA存在调控关系的蛋白编码基因进行功能富集分析,注释lncRNA的功能。随机游走算法基于R语言的DRaWR软件包,主要使用Perl、R语言完成数据处理和分析。 结果:基于超几何富集分析与重启随机游走算法预测癌症相关lncRNA的AUC值分别为0.795和0.797,本研究鉴定出279个癌症相关lncRNA,并预测出癌症相关的lncRNA339个,所构建的lncRNA调节网络中,涉及453个转录因子、1653miRNA、595个RNA结合蛋白及10671个存在ceRNA调节关系的mRNA,这些蛋白编码基因的功能主要富集在细胞代谢、细胞增殖、细胞周期、乳腺癌、非小细胞肺癌等相关的GO功能和KEGG通路。 结论:本研究预测癌症相关的lncRNA,具有较高的可靠性,并且这些癌症相关的lncRNA主要通过参与一些与细胞生长、分化、增殖等生物过程的调控,可能在多种癌症中发挥重要的作用。