论文部分内容阅读
生物体依靠蛋白质与蛋白质或蛋白质与其他物质之间的相互作用来完成各种生命活动,有关蛋白质相互作用的研究对理解生物体中各项活动的机制有着重要的意义,同时也存在着广泛的理论和应用前景。本文主要研究了基于机器学习理论的蛋白质结合位点预测方法,其基本原理是通过提取并结合多种类型的蛋白质相关信息并利用合适的特征向量对氨基酸序列进行表示,再依据这些特征使用科学的分类算法对氨基酸类别进行判断。本文主要研究了基于长短期记忆网络的序列特征提取方法,并通过分析问题的生物学背景对原始算法进行了改进。此外,本文还从多特征学习的角度,使用不同类型的信息构建出具有两层结构的集成学习模型,使预测效果得到提高。本文基于长短期记忆网络模型,结合蛋白质数据的特性设计了一种序列信息提取方法。该方法对传统的网络模型进行了优化,一方面为了体现蛋白质结合位点分布的聚簇性特点,将网络的输出层与下一时刻网络的输入层相连,从而引入了目标氨基酸相邻残基的类别信息。另一方面,为了解决人为指定蛋白质序列顺序的不合理性,本文通过改变模型的训练过程,分别按照正向和反向两个方向对氨基酸序列数据进行扫描并训练两个独立的预测模型,之后对两者的预测结果进行加权处理作为最终的分类依据。本文通过对比实验和相应的结果分析,验证了算法的有效性。虽然长短期记忆网络能够提取蛋白质链中各氨基酸残基的内在关联信息,但是由于蛋白质具有丰富的物理化学特性、一级结构和空间结构等属性,为了更加有效地表示氨基酸序列,本文基于集成学习的方法设计了一种运用多种类型特征的分类模型。该模型分为两层,第一层中包含三个基分类器,分别使用位置特异性打分矩阵、Bi-gram和伪氨基酸组成作为特征向量,并采用类似交叉验证的策略通过划分数据集的方式完成每个基分类器的训练和对所有样本的预测。之后,将基分类器的预测结果与上一章中使用长短期记忆网络模型提取到的序列特征相结合,一起作为第二层的特征向量,并以此为依据完成最终的类别预测。本文在按照序列比对结果进行划分的三个数据集分组上进行了实验,并分析了基分类器和集成学习分类器的预测性能与相关模型参数之间的关系,最后再与之前的方法进行对比,从而验证了本文方法的有效性。