论文部分内容阅读
高通量实验产生了大量的蛋白质相互作用数据。相互作用已知的蛋白质相互作用网络能为模体对的预测提供参考信息。但是,从蛋白质相互作用网络寻找模体对仍是一个挑战性问题。高通量实验产生的很多蛋白质相互作用数据是伪阳性。很多蛋白质之间没有进行相关的实验测试,又导致了数据的伪阴性。蛋白质相互作用网络中不同的相互作用有着不同的显著性意义,因为蛋白质对各自有着不同的概率被挑选出来进行相互作用关系的实验验证。与从互调控DNA序列中寻找模体问题相比,蛋白质模体对的寻找更困难,因为在挖掘频繁出现的模式前先要找出具有类似功能的蛋白质集合。另外,DNA序列由4种核苷酸组成,蛋白质序列则包含了20种氨基酸。模体对发现问题的庞大搜索空间为计算带来了很大困难。
我们提出了两种可适用于大规模数据的方法解决从蛋白相互作用网络发现序列模体对问题。第一种方法将模体实例的搜索空间限制在蛋白质邻居的邻居所构成的较小集合范围内,从而明显地提高了算法的效率,同时,采用了带consensus的(l,d)模型来表示模体,基于此模型在Voting算法的基础上提出了一个更快的寻找模体的子算法ConsistentVoting。在真实生物数据和模拟数据集上的实验不仅表明了我们的算法的效率和可靠性,也表明了我们的算法可适用于大规模数据。第二种方法,我们通过分层聚类先产生出紧密相关的蛋白质集合对。这些蛋白质集合对是由有着相似的相互作用对象的蛋白质组成,因而,根据相应的生物知识它们很可能含有共同的模体。我们直接使用现有的寻找模体的工具MEME来找出各组蛋白质序列中的频繁出现的单个序列模式(即模体),最后组成相互作用的模体对。即原先的模体对发现问题被转化成两个子问题,数据挖掘的经典聚类问题和一般性的模体发现问题。这样的转换降低了问题的难度,同时使计算时间大为减少。但是该方法对数据的质量要求则较高。