基于序列信息的蛋白质结合位点预测方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lovetianbing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物体依靠蛋白质与蛋白质或蛋白质与其他物质之间的相互作用来完成各种生命活动,有关蛋白质相互作用的研究对理解生物体中各项活动的机制有着重要的意义,同时也存在着广泛的理论和应用前景。本文主要研究了基于机器学习理论的蛋白质结合位点预测方法,其基本原理是通过提取并结合多种类型的蛋白质相关信息并利用合适的特征向量对氨基酸序列进行表示,再依据这些特征使用科学的分类算法对氨基酸类别进行判断。本文主要研究了基于长短期记忆网络的序列特征提取方法,并通过分析问题的生物学背景对原始算法进行了改进。此外,本文还从多特征学习的角度,使用不同类型的信息构建出具有两层结构的集成学习模型,使预测效果得到提高。本文基于长短期记忆网络模型,结合蛋白质数据的特性设计了一种序列信息提取方法。该方法对传统的网络模型进行了优化,一方面为了体现蛋白质结合位点分布的聚簇性特点,将网络的输出层与下一时刻网络的输入层相连,从而引入了目标氨基酸相邻残基的类别信息。另一方面,为了解决人为指定蛋白质序列顺序的不合理性,本文通过改变模型的训练过程,分别按照正向和反向两个方向对氨基酸序列数据进行扫描并训练两个独立的预测模型,之后对两者的预测结果进行加权处理作为最终的分类依据。本文通过对比实验和相应的结果分析,验证了算法的有效性。虽然长短期记忆网络能够提取蛋白质链中各氨基酸残基的内在关联信息,但是由于蛋白质具有丰富的物理化学特性、一级结构和空间结构等属性,为了更加有效地表示氨基酸序列,本文基于集成学习的方法设计了一种运用多种类型特征的分类模型。该模型分为两层,第一层中包含三个基分类器,分别使用位置特异性打分矩阵、Bi-gram和伪氨基酸组成作为特征向量,并采用类似交叉验证的策略通过划分数据集的方式完成每个基分类器的训练和对所有样本的预测。之后,将基分类器的预测结果与上一章中使用长短期记忆网络模型提取到的序列特征相结合,一起作为第二层的特征向量,并以此为依据完成最终的类别预测。本文在按照序列比对结果进行划分的三个数据集分组上进行了实验,并分析了基分类器和集成学习分类器的预测性能与相关模型参数之间的关系,最后再与之前的方法进行对比,从而验证了本文方法的有效性。
其他文献
与传统Internet普遍使用场景不同的是,容迟网络(Delay Tolerant Network,DTN)—般主要应用在比较极端的挑战性环境下,在此种情况下,由于受节点自身因素及外部环境等各方面的
现阶段的机器学习是一个学习数据规律进行预测的过程,而其中关键的步骤则是数据降维。特征提取方法相较于其他降维方法而言更能挖掘数据的本质信息。由于许多实际数据并非线
随着无线通信技术的快速发展,用户通过无线网络获取文件内容的需求急剧增长。然而,对于流行的文件内容,特别是视频内容,当用户都从远程服务器获取这些流行的内容时,将会造成
移动边缘计算(mobile edge computing,MEC)网络在距离用户最近的无线接入网部署边缘云服务器,创建具备高性能、低延迟与高带宽的服务环境,能为用户提供信息处理和云计算能力
荧光粉转换白光发光二极管(pc-WLED)由于具有成本低、使用时间长、质量高、效率高等优点,引起了大众的日益关注,被认为是传统白炽灯和荧光灯照明的有效替代品。其中,基质材料有
脑电信号作为一种重要的生理电信号,在临床医学、脑机接口等科研领域具有广泛的应用和重要的意义,是自然科学研究的重要组成部分。但由于脑电信号是一种微弱的非平稳随机信号
表面增强拉曼光谱(SERS)是一种极高表面检测灵敏度的检测表面物质指纹振动信息的光谱技术,甚至在特定的条件下,灵敏度可达到单分子水平。随着SERS效应的发展,SERS已经广泛应
由于预脉冲电流幅值、主脉冲电流幅值等参数变化对激光的影响并未有规律性结论,本文将主要对内径为4.0mm毛细管的46.9nm毛细管放电软X射线激光特性在改变实验条件下的变化规
图像描述,即产生给定图像的自然语义描述,是使得机器能够理解图像内容的关键任务。遥感图像描述是此领域的一部分。大部分主流的图像描述模型通常由编码器和解码器组成。在编
随着红外技术的迅速发展,导引头的红外探测系统性能得到了很大的提升,但目前的半实物仿真系统无法提供足够的原始图像数据,影响了红外制导技术的发展。为了充分发挥半实物仿