基于聚类和团求精的模体识别算法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lzs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物体基因的表达借助于具有调控作用的蛋白质和DNA序列中的调控位点的结合来完成,而调控位点出现在相关基因的上游调控区域,并且通常是保守的序列模式,即模体。因此,模体识别对于深入研究基因调控机制、发现生物功能位点有着重要的意义。模体识别问题是生物信息学主要的研究领域之一,是计算生物学的核心问题之一,是近年来研究的热点问题。本文首先介绍了模体识别问题的研究背景和意义,介绍了模体的表示方法、评分标准,和模体识别问题的定义,并对模体识别问题的研究现状进行了介绍。根据模体识别问题的现状,提出了利用基于聚类和团求精的模体识别算法(ACluster and Clique Refinement Approach to Motif Discovery, CCRMD)来解决模体识别问题,基本思想是利用基于信息熵的聚类算法求出一系列的候选模体实例的集合(每个集合就是一个聚类),将每个候选模体实例集转化为图,利用求图的所有团的算法对每个候选模体集进行求满足一定条件的相似字符串的集合,对每个字符串集合求其一致序列,去输入序列中查找模体实例,并求出模体。针对模拟数据和真实数据的仿真实验结果表明,CCRMD算法具有较高的平均性能系数。但是,本文算法不足的地方是仅仅用于解决每条序列中仅含有一条模体实例的模体识别问题,通过改进,可以用于解决每条序列中含有多条模体实例的情况。
其他文献
DeepWeb是指隐藏在Web数据库中而不能被传统搜索引擎索引到的那部分内容的集合。对于特定领域的Deep Web,不同的站点会提供不同查询能力的查询接口。集成查询接口可以达到访问
随着乳腺癌在全世界妇女中的发病率越来越高,乳腺外科门诊工作量不断的加大,研发一个既能辅助医生诊断疾病提高乳腺外科门诊工作效率、减少或者避免漏诊、误诊,又可以培养年
多维数据的近邻查询是多媒体数据处理领域最常用的基本操作之一,并长期都是研究的热点。然而已提出的索引大多面临高维、海量等问题的困扰。由于矢量量化技术具有较好的数据量
随着电子商务和电子政务迅速发展,越来越多的像银行账号之类的个人信息要求严格保密,所以,如何保证信息的安全性显得尤其重要。作为信息安全的核心技术之一,密码技术具有极为重要
智能监控中的运动目标识别分类技术是计算机视觉领域的一个研究热点,随着科技的进步、社会的发展,各行各业对视频监控的需求不断增强,使得视频监控系统不断朝着智能化的方向
植物是自然界的重要组成部分,因其种类繁多、结构复杂、形态万千,以计算机技术为中心,建立在植物学、计算机图形学、数理统计、可视化技术基础上的虚拟植物(VirtualPlants)研究
随着计算机网络的迅猛发展和网络业务类型的快速增加,网络管理日益复杂,传统的网络难以保证用户的端到端QoS目标。认知网络在感知当前环境的基础上,同时结合业务需求,对网络未来
在大型客机全球化协同研制过程中,需要与全球先进的制造企业进行深入地交流,在协同研制的过程中,经常涉及到双方信息资产安全等诸多问题。本文针对大型客机的全球信息化协同研制
归纳学习的核心问题是从给定的数据集中抽取分类规则,决策树归纳是一种典型的分类规则抽取方法,扩展属性的选择是决策树归纳的核心问题,基于离散化的连续值决策树归纳在选择扩展
随着通信技术的不断进步以及各种通信方式的出现,通信交流已经成为人们生活中不可或缺的一部分。伴随着科技发展和社会的进步人们对于信息交流的要求也逐步提升。互联网、有