蛋白质相互作用的序列模体对发现算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:wenruozhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高通量实验产生了大量的蛋白质相互作用数据。相互作用已知的蛋白质相互作用网络能为模体对的预测提供参考信息。但是,从蛋白质相互作用网络寻找模体对仍是一个挑战性问题。高通量实验产生的很多蛋白质相互作用数据是伪阳性。很多蛋白质之间没有进行相关的实验测试,又导致了数据的伪阴性。蛋白质相互作用网络中不同的相互作用有着不同的显著性意义,因为蛋白质对各自有着不同的概率被挑选出来进行相互作用关系的实验验证。与从互调控DNA序列中寻找模体问题相比,蛋白质模体对的寻找更困难,因为在挖掘频繁出现的模式前先要找出具有类似功能的蛋白质集合。另外,DNA序列由4种核苷酸组成,蛋白质序列则包含了20种氨基酸。模体对发现问题的庞大搜索空间为计算带来了很大困难。   我们提出了两种可适用于大规模数据的方法解决从蛋白相互作用网络发现序列模体对问题。第一种方法将模体实例的搜索空间限制在蛋白质邻居的邻居所构成的较小集合范围内,从而明显地提高了算法的效率,同时,采用了带consensus的(l,d)模型来表示模体,基于此模型在Voting算法的基础上提出了一个更快的寻找模体的子算法ConsistentVoting。在真实生物数据和模拟数据集上的实验不仅表明了我们的算法的效率和可靠性,也表明了我们的算法可适用于大规模数据。第二种方法,我们通过分层聚类先产生出紧密相关的蛋白质集合对。这些蛋白质集合对是由有着相似的相互作用对象的蛋白质组成,因而,根据相应的生物知识它们很可能含有共同的模体。我们直接使用现有的寻找模体的工具MEME来找出各组蛋白质序列中的频繁出现的单个序列模式(即模体),最后组成相互作用的模体对。即原先的模体对发现问题被转化成两个子问题,数据挖掘的经典聚类问题和一般性的模体发现问题。这样的转换降低了问题的难度,同时使计算时间大为减少。但是该方法对数据的质量要求则较高。
其他文献
伴随着知识经济的兴起,一种新的管理模式---知识管理开始出现并引起了人们的重视。知识管理的目标是创新,知识共享和重用是创新的重要前提和保障,产品概念设计领域作为设计新知
网络业务需求的快速增长对互联网服务质量(QoS)提出更高的要求,而业务交换节点成为制约网络性能的主要“瓶颈”之一。由于互联网络复杂的动态特性可以通过网络所负载的流量来
近年来,互联网技术和信息技术的飞速发展使得通过网络进行通信的网络社交成为可能。在众多的社会网络平台中,微博成为了使用广泛、最受人们欢迎和研究学者关注的社交平台,微
随着网络规模的迅猛发展和新业务的大量涌现,如何提高网络的服务质量成为当前迫切需要解决的问题之一。新一代网络技术MPLS(Multi Protocol Label Switching)在继承了ATM标签
CTI(ComputerTelecommunicationIntegration:计算机电话集成)计算机技术广泛应用于通讯领域后逐渐发展起来的一门综合技术。这种电信与计算机技术的融合为电信业带来了广阔的
近年来,数据仓库已经发展到能支持企业决策,甚至支持企业合作伙伴和客户的新高度。新一代的数据仓库应用不仅改善了企业战略的形成,更重要地是发展了战略的执行决策能力。ETL
随着半导体制造工艺的进步,功耗问题成为嵌入式设计领域一个新的挑战。研究表明片上存储子系统已成为片上系统主要功耗来源。SPM(Scrach-pad Memory)作为一种片上存储器具有
以基于本体的特定领域需求获取为主要研究内容,系统分析并总结了目前已有的基于本体需求获取方法,得出当前方法的不足是本体为静态一次性构造,缺乏灵活性。针对当前方法中存
数据流模型的出现给传统的数据挖掘技术带来的巨大的挑战。由于数据流连续不断的到来,已有的数据处理技术难以对这些潜在无限的、变化的数据进行有效的管理和挖掘,因此,必须
近年来,随着网络规模的飞速发展,传统的IP网络仅提供“尽力而为”(BestEffort)的服务,对IP包传递的可靠性和时延不提供任何保证,这对只要求准确率而对时延没有严格要求的数据业务