论文部分内容阅读
随着生命科学领域高通量实验的发展,人们得到越来越多有关蛋白质结构和功能的生物数据,生命科学的研究重点从解码基因组慢慢转变到对蛋白质的研究,进而探索生命进化的过程。蛋白质相互作用网络是生命活动中蛋白质功能关系的结构表现,网络模体是其基本组成结构,查找网络模体也逐渐成为研究蛋白质领域的热点问题。本文基于蛋白质相互作用网络,分析了网络模体的拓扑特性及统计特征,并总结了现有的关于网络模体查找的研究成果,分析这些算法的优缺点,并针对其中存在的一些问题,提出了基于蛋白质相互作用来寻找概率网络模体的新算法。概率网络模体是指生物网络中结构相似的一组子图,根据其结构特性,本文提出了AS-ESU子图抽样算法(Adaptive Sampling Enumeration Subgraph),这种算法根据复杂网络的拓扑特性,重新分配ESU搜索树中各枝干的抽样概率,提高了抽样稳定性,使抽样结果更具有原网络的代表性。随后又提出了基于多特征融合的子图比对算法,引入一种新的顶点匹配规则,使得查找的概率网络模体不仅从拓扑结构考虑,同时还考虑子图顶点的蛋白质类型。通过实验表明,这种方法可以识别出不同规模的多种概率网络模体。为进一步提高概率网络模体查找的准确性,本文从提高概率网络模体聚类的类内相似度角度出发,提出了一种新型的子图邻接矩阵转换0-1串的编码规则。这种方法结合蛋白质相互作用原网络中顶点度的全局信息和子图内部边连接的局部信息,对所有子图进行唯一的图编码操作。然后针对模体查找算法子图数目多和算法计算量大的难点,改进了确定概率网络模体的聚类过程。本文采用一种实时迭代更新类中心的聚类方法,动态更新候选概率网络模体信息使得子图分类更加精确。通过实验表明,这种方法在一定程度上提高了概率网络模体的类内相似度。