多源信息融合的蛋白质折叠模式识别方法研究

来源 :燕山大学 | 被引量 : 1次 | 上传用户:zjlyqgf888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从海量的蛋白质序列数据信息中分析蛋白质的结构和生物学功能是后基因组时代的一个重大挑战。蛋白质折叠模式是描述蛋白质空间拓扑结构的重要概念。开发基于序列的蛋白质折叠模式识别方法被认为是蛋白质结构预测的重要一环,有助于加速蛋白质结构的解析并进一步促进蛋白质结构与功能之间关系的研究。根据折叠模式的不同粒度,蛋白质折叠模式识别涵盖结构类预测和折叠子识别两个子问题。现有文献多忽视结构类和折叠子两个概念间的层次包含关系,将其视为两个独立的问题分别进行研究。本文基于现代模式识别理论与方法,从蛋白质结构类预测问题入手,在多源信息特征表示和信息融合分类系统设计等方面展开研究,最终构建融合结构类信息的层次化蛋白质折叠子识别方法。  首先,提出了基于序列进化模式伪氨基酸组分的蛋白质结构类预测方法。为了充分利用位置特异性打分矩阵蕴含的蛋白质序列进化保守性信息,提出了6种序列进化模式伪氨基酸组分特征表示方法,多方面描述了蛋白质序列氨基酸残基之间整体和局部的顺序信息。通过分别设计特征级和决策级信息融合的分类系统对上述蛋白质特征进行整合。两个低序列相似度蛋白质数据集上的实验结果表明,本文提出的方法优于近年来提出的其它类似方法。  其次,提出了基于二级结构的蛋白质结构类预测方法。针对现有大部分特征仅反映蛋白质二级结构含量的缺陷,从氨基酸残基形成各种稳定二级结构过程中的协同性和相互作用以及二级结构的空间排列分布角度提出新的特征表示方法。通过设计一种特征级-决策级双层信息融合的分类系统,并结合支持向量机分类算法构建蛋白质结构类预测方法。两个低序列相似度蛋白质数据集上的实验结果表明,本文提出的方法对于提高总体分类准确率以及较难区分的α/β类和α+β类蛋白质的分类准确率有显著效果。  最后,提出了融合结构类信息的层次化蛋白质折叠子识别方法。从蛋白质结构类和折叠子两概念间的层次包含关系入手,设计基于软分类的层次化蛋白质折叠子识别框架。实验结果表明,该层次化识别框架可以有效降低蛋白质结构类的错误分类对最终折叠子的识别带来的负面影响,特别是对结构类水平下较难分类的蛋白质的折叠子识别的改善效果显著。基于该框架,嵌套蛋白质序列进化保守性特征、二级结构特征、氨基酸序列和物理化学性质特征以及支持向量机和随机森林分类算法,构建了多源信息融合的层次化蛋白质折叠子识别方法。通过与近年来提出的其它方法进行比较,验证了该方法的有效性。
其他文献
近年来,网络的社区结构得到了广泛而深入的研究。传统的社区发现算法针对的是数据间的关联特性,而忽略了数据的固有属性。然而,结合数据的社区特性和固有属性挖掘得到的离群点可
复杂网络遍布人类社会的各个领域,一般具有以下全部或部分特征:自组织、自相似、吸引子、小世界以及无标度等。社团结构发现是复杂网络研究中的热点。具有社团结构的复杂网络中
随着电子商务网站中商品数量和种类的增多,消费者需要花费更多的时间进行商品的筛选,这种信息过载的现象困扰着人们对有效信息的选择。为了解决以上难题,推荐技术进入了人们的生
颗粒粒度大小对于许多工业产品的质量和性能都起着非常重要的影响,基于嵌入式系统图像处理的颗粒粒度检测技术,因其具有便携性、安全、快速、非接触测量等诸多优势,成为目前颗粒
人脸识别技术是模式识别和人工智能领域的研究热点之一。基于二维图像的人脸识别技术经过半个多世纪的发展,已经取得了一定的研究成果。受限于所采用的数据形式,二维人脸识别方
近年来,随着信息技术的迅猛发展和多媒体的广泛应用,多媒体技术已经成为人们研究的热点。而跨越视频底层特征与人类思维中的高层语义之间的语义鸿沟成为横亘在众多学者面前的亟
随着信息技术的不断发展,计算机网络在过去的几十年间经历了一个蓬勃发展的时期。网络的广泛应用已渗透到日常生活的各个领域,然而由于网络流量和网络,资源分布的不均衡性,伴
复述是用不同方式表达同样的语义,它不仅是人类自然语言中的一种普遍现象,同时对自然语言处理领域的许多研究都具有重要的意义。近年来,复述技术受到了越来越多的研究者的关
目前,与人类识别音乐的能力相比,计算机的识别能力非常有限。数字音乐和互联网技术的快速发展使我们可以获得大量的音乐作品,同时需要更加有效的音乐检索系统。乐器识别在复杂的
云计算预留是指在云计算环境下,利用云计算中大量的丰富资源,为满足用户对云服务的需求,在实际使用服务之前进行必要的接纳测试和预留,使用户在使用服务的过程中获得做够的服务,使