论文部分内容阅读
蛋白质三级结构预测是由氨基酸序列预测蛋白质三级结构的过程。蛋白质结构预测的基本假设是蛋白质三级结构由其氨基酸序列唯一决定。研究蛋白质的结构意义重大,不但有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质之间的相互作用,而且对生物学、医学和药学都有非常重要的作用。历时十年的人类基因组计划产生了海量的生物序列数据,蛋白质序列数据与结构数据数量之间的差距越来越大,所以蛋白质结构预测变得日益紧迫和重要。本文所要研究的是如何构建一个蛋白质三级结构预测模型,使之能够更加准确有效的预测氨基酸对应的蛋白质三级结构。内容包括氨基酸序列的特征提取方式,神经网络结构设计及智能优化算法的选择。一、氨基酸序列特征提取。要对蛋白质结构进行预测,首先必须把氨基酸序列中的信息提取出来,转换成计算机可以处理的数据,即进行特征提取。选择何种提取方式非常关键,不同的特征提取出的信息大不相同,现在的方法主要有氨基酸组成模型(AA)、二肽组成模型、多肽组成模型、伪氨基酸组成(PseAA)、多特征融合、基于氨基酸物理化学性质等,从不同角度对氨基酸特征进行提取。本文采用了以上各种特征提取方式并进行了特征融合。实验表明,不同的特征提取方式对于不同的数据集和分类模型效果不同。二、分类模型的建立。蛋白质三级结构预测实际上是根据提取出的有用信息,通过学习分析这些信息,总结出规律,实现对未知结构氨基酸序列的结构预测。对于蛋白质三级结构预测这种信息维数高,计算量大的问题,借助神经网络是非常有效地。神经网络具有较强的自组织、自学习、自适应能力,能够快速学习到序列中包含的特征,实现对结构的预测。而对于网络,包括结构的优化和参数的优化两部分。选择何种优化算法是至关重要的,不同的算法会产生不同的时间效率,不同的算法对应不同的预测正确率。本文中将对各种不同的优化算法进行比较,选择出更适合的优化算法。实验表明,参数优化采用粒子群优化算法(PSO)能取得较好的效果。BP神经网络在蛋白质三级结构预测中能大大提高预测准确率。针对蛋白质三级结构预测这种多分类问题,本文提出将多类问题转换成多个二分类问题的集成。通过试验表明,单输出方式比多输出方式能有效的提高预测的正确率。为了寻找一种更优的网络结构,本文首次将灵活神经树(FNT)应用在蛋白质三级结构预测中,PSO对网络参数进行优化,概率增强式程序进化(PIPE)对网络结构进行优化。实验表明,这种模型在预测25PDB这样较大的蛋白质数据集中,效果理想。它不但解决了以前预测时只能提前固定网络结构和采用试探法选择隐层个数的问题,而且还能对高维特征进行选择性输入,实现了对原始输入的降维作用。