论文部分内容阅读
在分子水平,生命的功能主要通过各种蛋白质的相互作用来实现,研究人员已开发出酵母双杂交、串联亲和纯化等多种高通量蛋白质相互作用检测技术,并产出了大规模的蛋白质相互作用数据。这些数据的管理和挖掘成为当前生物信息学领域的一项重要而紧迫的任务。由此,本课题针对蛋白质相互作用数据管理和应用开展了如下四个方面的研究。(1)蛋白质相互作用数据整合方法研究及数据平台建设。目前蛋白质相互作用数据分散在众多的异质数据库中,各数据库在相互作用类型和数据覆盖度等方面都存在较强互补性,有必要对数据进行整合。本文建立了整合生物分子通路(Pathway)和蛋白质-蛋白质相互作用(PPI)两类数据库的方法。该方法包括建立统一的数据模型,以及建立从通路模型(Bio PAX和KGML)到新数据模型的转换规则。新数据模型采用作用对形式表示蛋白质相互作用,区分了生物相互作用(Biol PPI)和技术相互作用(Tech PPI),同时增加生物事件和功能效应参数以保留更多的相互作用信息。基于该方法将人类蛋白质的7个通路数据库(PID、Bio Carta、Reactome、Net Path、INOH、KEGG和SPIKE)和5个PPI数据库(HPRD、Int Act、Bio GRID、MINT和DIP)进行了整合,得到了整合数据集Path PPI。Path PPI包含13,411个人类蛋白质的23,041个Biol PPI和72,473个Tech PPI。(2)蛋白质属性数据整合及挖掘。近年来,基因及其产物(RNA、蛋白质)的注释数据快速增长,如基本序列信息、高级结构、序列修饰位点、分子量、等电点、染色体定位、亚细胞定位、分子功能、生物过程、进化参数、表型、组织表达特异性、信号通路及蛋白质稳定性等。这些数据分散在海量文献及公共数据库中,对这些数据进行收集、整理将为组学研究提供有力支持。基于收集的数据,本文进一步开展了生物挖掘研究。本部分内容包括四方面工作:第一,本文通过公共数据库、文献搜集以及自己计算的方式全面搜集了目前可获得的蛋白质属性,并对属性的分类及存储格式标准化问题进行了探讨,提出了四种属性分类原则和两种适合作为软件输入的存储格式。第二,考察了蛋白质属性值的分布特性。该分析有助于对各种蛋白质属性的整体认识,如分子量服从单峰分布,等电点、疏水性服从多峰分布等等。第三,考察了不同生物功能的蛋白质在起源时间、进化速率、稳定性、分子量等15种理化属性上的特点,重点关注了具有极端特性的功能类别,如最早起源蛋白质集中在遗传和物质代谢功能相关的功能类别,而较晚起源的蛋白质集中在免疫、趋化因子分子功能类别等。该分析有助于更好认识和理解蛋白质的生物功能与理化属性之间的关系。第四,考察了不同染色体定位蛋白质的理化特性,以及各种生物功能蛋白质集合分布特点。获得了不同染色体定位上的富集功能组,如CHR1-2、CHR4、CHR6及CHR9有较多通路富集,CHRX有多类疾病基因集合富集等。(3)蛋白质相互作用网络模块研究。蛋白质相互作用网络具有模块化组织结构特性,模块研究是探索网络结构和功能的一种有效手段。与传统的基于网络拓扑的模块研究模式不同,本文从生物特性角度描述网络模块,定义了代谢通路调控模块和等表达量模块两类新的网络模块,并对其进行了识别和特性研究。第一,代谢通路调控模块研究。在传统生物化学和分子生物学中,代谢通路的研究往往只关注代谢酶与代谢小分子的关系,而很少关注其他分子对代谢通路酶的调控。但对于整个生物分子系统,调控分子和代谢通路一定存在紧密联系,并且是最基础、最重要的关系之一。因此,为了突出代谢通路上游调控通路的重要性,本文将代谢通路及其上游调控通路看做一个整体,定义为代谢通路调控模块。然后利用当前公共数据库的信号转导及转录调控作用,构建了代谢通路调控模块。所构建模块可应用于探讨基因功能等研究。第二,等表达量模块研究。实验室在前期数据分析中发现,在信号转导及代谢网络通路中存在大量邻接蛋白质表达丰度相近的子网络。此类子网络中蛋白质丰度相近是随机现象,还有具有特殊生物学意义?丰度一致蛋白质在功能上是否更为紧密?子网络是否可以作为基本功能单元?值得深入探究。针对这些问题,本文首先将此类子网络定义为等表达量模块,然后分别对五组不同蛋白质定量数据下的信号转导和代谢网络的等表达量模块进行了识别,并证实等表达量模块内的蛋白质作用对之间比总体蛋白质作用对有更高的共表达一致性、GO(gene ontology)功能相似性及转录共调控特性。(4)肝癌转移相关的网络模块挖掘。肝癌转移是肝癌致死的重要因素之一,但其分子机制还远远未研究清楚,最近的组学技术提供了从系统层次研究肝癌转移的分子筛选、分子诊断等问题的新思路。本文首先提出一种整合GO功能属性的表达差异模块搜索方法,利用两组乳腺癌转移m RNA表达谱数据进行性能评估,结果表明,与现有的两种主流方法相比较,本文提出的方法在模块准确性和对已知乳腺癌基因的识别精确性上得到了提高。将该方法应用于复旦大学中山医院肝癌研究所的58例临床样本(转移36例,非转移22例)的m RNA表达谱数据,以及复旦大学生物医学研究院的8种肝癌非转移(2种)和转移(6种)细胞株的m RNA表达谱数据和蛋白质组表达谱数据,得到不同数量的表达差异网络模块。经过进一步生物学分析,筛选出与细胞迁移有关的6个模块,可作为后续生物学实验验证的重点。