论文部分内容阅读
近些年,对基因组中“暗物质”的研究已成为生命科学及临床基础医学研究中的热点问题。2010年,《科学》杂志将基因组中的“暗物质”列为十大科学突破之榜首。2012年,“垃圾DNA”才是掌控者这一结论被《时代》杂志列为年度十大医学突破。伴随着ENCODE计划第二阶段成果的发布,大量由基因组非编码区域所转录出来的非编码基因被揭示,其中对于长非编码RNA的大规模鉴定是该计划最重要的核心成果之一。高通量测序技术在近些年所取得的迅猛发展,使能够较为容易的获得大量生命组学的数据,这对于长非编码RNA的研究也带来了一个前所未有的机遇。目前,对基因组信息的认知只有1%左右,作为基因组中的“暗物质”,对长非编码RNA的认知也才刚刚起步。然而,在如此庞大及复杂的生命组学数据面前,“计算分析与解读”成为了摆在当前的迫切问题,也成为了迈向精准医学时代的“瓶颈”问题。 目前,虽然大量研究已证实长非编码RNA潜在的数量非常之多,然而其功能及调控机制层面的研究还很少。究其原因,一方面是由于缺少高效的长非编码RNA生物学实验研究手段,另一方面,关于长非编码RNA的先验知识较为匮乏,开展生物学实验往往无从下手。因此,基于生物信息学方法,开发长非编码RNA的分析工具,进而揭示其潜在的功能及调控机制,这将对下游的实验研究具有重要的意义和指导价值。 长非编码RNA作为一类不编码蛋白、仅在RNA水平发挥作用的分子,其主要在转录及转录后两个层面进行调控。当前的研究大都集中在转录层面,例如长非编码RNA的鉴定以及表达等,针对这些问题所开发的软件及计算方法也相继出现。然而,对于非生物信息背景的下游生物学实验工作者来说,将这些软件、计算方法进行整合分析是件异常困难的挑战。 目前该领域存在的问题主要包括以下几点: (1)在方法学层面:尚无一套可供非生物信息背景的研究人员使用,且高效、便捷的长非编码RNA一站式生物信息分析系统。 (2)在生物学层面:由于缺少有效的长非编码RNA分析筛选工具,导致对于长非编码RNA的生物学机制研究困难重重。 (3)在临床基础研究层面:虽然已有大量研究证实RNA编辑在生命调控过程中具有重要的作用,且对于一些重大疾病的发生扮演着关键角色,然而关于长非编码RNA的编辑事件以及其所引发疾病的机制研究却鲜有报道。 基于此,本课题的开展一方面在为下游生物学实验人员提供长非编码RNA一站式系统分析工具的同时,也将对长非编码RNA在转录及转录后层面所发生的事件及意义进行研究。本课题主要包括以下主要研究内容及创新之处: (1)本课题首次搭建了集长非编码RNA基因鉴定、功能注释的一站式计算分析体系,实现了方法学层面的创新。该体系为非生物信息背景的生物学实验和临床基础研究的人员提供了便捷、高效的挖掘长非编码RNA的工具。 (2)基于上述计算分析体系,通过对芯片数据和转录组高通量测序数据的分析,成功鉴定了与代谢相关的长非编码RNA以及与其参与调控的蛋白,并以此为线索指导下游生物学实验的顺利完成。 (3)基于该体系,通过对九个物种的多组织样本的转录组高通测序数据进行分析,在每个物种分别获得了数千至数万条长非编码RNA的集合,其绝大多数均为本研究首次发现,并基于计算手段对长非编码RNA在物种间保守性进行了创新性的研究。 (4)在长非编码RNA计算分析体系的基础上,本研究整合了全基因组重测序数据分析流程,建立了转录后层面的RNA编辑事件的鉴定方法。并以癌症发生及发展的过程为线索,以及癌症发展不同阶段的poly(A)+以及poly(A)-RNA测序数据为基础,在鉴定大量长非编码RNA编辑事件的同时,对RNA编辑位点在癌症不同阶段的特异性、其所影响的基因以及microRNA调控等方面进行了系统分析,并对其在癌症调控中的潜在机制进行了相关探索,得到了基础临床研究层面的创新成果。 据所知,该部分成果是首次对癌症发生与发展过程中的RNA编辑事件进行的计算分析研究,这将为下游癌症转录后调控机制的生物学实验以及临床基础研究提供重要的指导和数据支持。