论文部分内容阅读
从海量的蛋白质序列数据信息中分析蛋白质的结构和生物学功能是后基因组时代的一个重大挑战。蛋白质折叠模式是描述蛋白质空间拓扑结构的重要概念。开发基于序列的蛋白质折叠模式识别方法被认为是蛋白质结构预测的重要一环,有助于加速蛋白质结构的解析并进一步促进蛋白质结构与功能之间关系的研究。根据折叠模式的不同粒度,蛋白质折叠模式识别涵盖结构类预测和折叠子识别两个子问题。现有文献多忽视结构类和折叠子两个概念间的层次包含关系,将其视为两个独立的问题分别进行研究。本文基于现代模式识别理论与方法,从蛋白质结构类预测问题入手,在多源信息特征表示和信息融合分类系统设计等方面展开研究,最终构建融合结构类信息的层次化蛋白质折叠子识别方法。 首先,提出了基于序列进化模式伪氨基酸组分的蛋白质结构类预测方法。为了充分利用位置特异性打分矩阵蕴含的蛋白质序列进化保守性信息,提出了6种序列进化模式伪氨基酸组分特征表示方法,多方面描述了蛋白质序列氨基酸残基之间整体和局部的顺序信息。通过分别设计特征级和决策级信息融合的分类系统对上述蛋白质特征进行整合。两个低序列相似度蛋白质数据集上的实验结果表明,本文提出的方法优于近年来提出的其它类似方法。 其次,提出了基于二级结构的蛋白质结构类预测方法。针对现有大部分特征仅反映蛋白质二级结构含量的缺陷,从氨基酸残基形成各种稳定二级结构过程中的协同性和相互作用以及二级结构的空间排列分布角度提出新的特征表示方法。通过设计一种特征级-决策级双层信息融合的分类系统,并结合支持向量机分类算法构建蛋白质结构类预测方法。两个低序列相似度蛋白质数据集上的实验结果表明,本文提出的方法对于提高总体分类准确率以及较难区分的α/β类和α+β类蛋白质的分类准确率有显著效果。 最后,提出了融合结构类信息的层次化蛋白质折叠子识别方法。从蛋白质结构类和折叠子两概念间的层次包含关系入手,设计基于软分类的层次化蛋白质折叠子识别框架。实验结果表明,该层次化识别框架可以有效降低蛋白质结构类的错误分类对最终折叠子的识别带来的负面影响,特别是对结构类水平下较难分类的蛋白质的折叠子识别的改善效果显著。基于该框架,嵌套蛋白质序列进化保守性特征、二级结构特征、氨基酸序列和物理化学性质特征以及支持向量机和随机森林分类算法,构建了多源信息融合的层次化蛋白质折叠子识别方法。通过与近年来提出的其它方法进行比较,验证了该方法的有效性。