论文部分内容阅读
基因组结构和功能注释是现代生物学研究开展的重要基础。在新一代测序技术的推动下,人类对基因组结构与功能的认识正随着转录组的扩增而产生着革命性的变化。目前,包括Ensembl, ENCODE, UCSC在内的基因组的结构与功能的注释机构正在将转录组测序的数据用于人类,小鼠及斑马鱼的功能基因组的注释当中。作为非常重要的模式生物之一,大鼠依其与人类之间存在的高度的同源性、特殊的生理特征以及优良的品系资源被广泛的应用于毒理学、神经病学、细胞培养等众多的研究领域中。在这些研究领域中,作为基因功能的第一表现形式,针对转录组水平的研究是其应用优势最为显著的方向。通过在GEO (Gene Expression Omnibus)数据库简单搜索"toxicology"(毒理学)即可发现,大鼠是试验数据最为丰富的物种,累积试验数目己达600组以上,居其次的小鼠对应的试验仅有百余组。相比之下,由于The Functional Annotation of the Mammalian Genome (FANTOM) consortium的巨大贡献,小鼠中注释的转录本数量是大鼠的一倍以上。据此,对于大鼠进行高通量的转录组测序研究,并重建转录组结构注释,有望将大鼠基因组功能及转录组的认识提高到一个全新水平,进而从剪接位点到功能注释的多个水平上为大鼠转录组水平研究提供更加完整的数据资源。本研究以大鼠组织图转录组重建与功能注释为目标,分别进行了高通量测序的试验设计分析、高通量转录组测序、数据质量评估与样本诊断、高通量测序错误模型及测序模拟器构建、转录组重建的分析流程构造及优化、并最终完成了大鼠的转录组结构与功能注释。其中高量测序试验为大鼠的10个组织样本,包括4个年龄,共320个样本的平衡设计。最终的测序数据中最小生物学条件的可匹配read数据量己达61M,小于80M的条件仅有4个,平均数据量达120M。此外,在所有混合样本中共有298.7M可匹配eads,其中包括Poly-A文库161M、Ribo Zero文库137M。本研究通过ERCC序列建立测序数据中测序结果的错误偏好模型并依此建立了测序模拟器。在测序模拟器的基础上,我们进行了算法比较及参数优化,最终我们在大鼠组织图转录组中鉴定了484,128个剪接位点,其中包含了74%的Ensembl Release68剪接位点。在所有发现的剪接位点中共有86,302个半保守位点,及90.2%的经典剪接。进一步,我们在大鼠组织图数据中共得到了185,569个转录本,这些转录本覆盖了1,076,730,150个碱基,占大鼠全基因组的39.6%,其中包含了418,315个外显子,这些外显子覆盖了159,937,575个碱基,占大鼠全基因组的5.88%。本研究结果与Ensembl Release68大鼠注释相比,转录本数目提高了4倍以上,编码转录本为53,115个、非编码转录本为22,149个,超过10万个转录本获得了Gene Ontology注释。此外,本研究还应用获得的剪接位点和注释的基因模型进行了组织富集的可变剪接体分析及RNA-Seq的匹配策略分析。从实例的角度说明新的注释数据在多可变剪接体基因的转录调控机制研究的应用及其在RNA-Seq的基础分析当中的意义。