基于频率谱的蛋白质结构和相互作用位点预测

来源 :哈尔滨工业大学 | 被引量 : 3次 | 上传用户:woshilidefu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着蛋白质测序技术的发展,蛋白质序列数据量不断增加,使得采用数据驱动的方法通过蛋白质序列预测蛋白质结构和功能成为可能。频率谱中包含大量的进化信息,它能够从进化的角度更加准确的表示蛋白质序列,因此利用频率谱中包含的进化信息解决生物信息学中的问题具有重要的意义。  本文从如何利用频率谱中的进化信息的角度出发,对蛋白质结构和功能预测的一些重要问题进行了深入的研究。本文研究内容包括以下几个方面:  第一,本文提出了一种新的蛋白质序列组成成份:排序谱。排序谱包含频率谱中的进化信息。通过统计排序谱在蛋白质无序区和有序区出现频率的差异计算得到排序谱长无序区倾向性。倾向性和位置特异性分数矩阵作为特征输入逻辑回归模型预测蛋白质长无序区。在五份交叉验证中,本文提出的方法的AUC指标为97.5%,远远高于其他方法。在独立测试数据集上的实验结果更进一步证明本文提出的方法可以明显提高蛋白质长无序区预测效果。与氨基酸长无序区倾向性相比,排序谱长无序区倾向性可以明显提高预测效果,说明引入进化信息对蛋白质长无序区预测具有重要意义。  第二,在蛋白质远程同源性检测和折叠识别领域中,基于支持向量机的方法的性能最佳。提高基于支持向量机方法的预测效果的关键步骤是寻找到一种恰当的蛋白质序列向量化方法。本文提出一种基于Top-n-gram的蛋白质序列向量化方法,并采用此方法成功解决了蛋白质远程同源性检测和折叠识别问题。Top-n-gram是本文提出的另一种包含进化信息的蛋白质序列组成成份,它提取了频率谱中的进化信息。通过统计每条蛋白质序列中每种Top-n-gram出现的次数,将蛋白质序列转化为固定长度的向量。本文通过采用潜在语义分析进行特征提取,在有效去除特征中的噪音的同时降低了特征向量的维数,从而进一步提高了远程同源性检测和折叠识别的效果。本文采用支持向量机作为分类器。在超家族和折叠数据集上的实验结果表明本文提出的方法的预测效果显著优于其他对比方法。  第三,本文提出了一种新型的蛋白质相互作用位点倾向性,即排序谱相互作用位点倾向性。此种倾向性与两种其他类型的相互作用位点倾向性进行了比较,分别是氨基酸相互作用位点倾向性和二进制谱相互作用位点倾向性。本文提出的蛋白质相互作用位点预测方法采用的分类器为支持向量机,输入特征为相互作用位点倾向性、位置特异性分数矩阵和溶剂可及表面面积。在四类复合物(非同源永久性复合物、非同源短暂性复合物、同源永久性复合物和同源短暂性复合物)数据集上的测试结果显示与其他类型的倾向性相比,排序谱相互作用位点倾向性可以明显提高蛋白质相互作用位点的预测效果。  第四,本文提出了一种基于隐马尔可夫支持向量机的蛋白质相互作用位点预测方法。该方法基于最大边界理论,把蛋白质相互作用位点预测作为序列标注任务。输入隐马尔可夫支持向量机的特征为基于蛋白质序列和结构的特征,包括位置特异性分数矩阵、溶剂可及表面面积和排序谱相互作用位点倾向性。在六个数据集上的实验结果表明基于隐马尔可夫支持向量机的蛋白质相互作用位点预测方法优于其他方法(包括神经网络、支持向量机和条件随机域)。  当把排序谱相互作用位点倾向性作为额外特征加入隐马尔可夫支持向量机时,本文提出的方法的性能有显著的提高。此方法有三个优点:1)采用序列标注方法把蛋白质序列作为一个整体预测,因此可以利用临近氨基酸之间的类别信息;2)隐马尔可夫支持向量机基于最大边界理论,可以有效利用核方法;3)由于在训练过程中采用割平面算法,使得隐马尔可夫支持向量机的训练时间和训练样本数量呈线性关系。
其他文献
虚拟内窥镜是计算机技术在医学领域的典型应用,它利用医学影像作为原始的数据,结合虚拟现实技术、计算机图形学、图像处理、科学计算可视化来模拟传统光学内窥镜,是一种非侵
在需要知识共享的语义网中,本体是解决语义层次上的信息共享和重用的基础。本体编辑器作为对领域知识建模的必要工具,能帮助领域专家完成对本体的创建、解析、存储和重用等工
随着信息产业的急速发展,迎来了大数据的时代。网络中数据量的剧增给已经成熟的网络结构提出了巨大的挑战。云计算是依托成熟的虚拟化技术,从网格计算、分布式计算和协同计算
现在的社会是高速发展的社会,日益发展的科技,伴随着越来越多的信息流通,大数据便是这个时代的产物。大数据的价值并不在“大”,而在于“有用”,数据中的价值含量、挖掘成本
无线传感器网络(Wireless Sensor Network,WSN)是嵌入式技术、无线通信技术、传感器技术等多种技术的融合,它是一种由多传感器节点通过自组织形成的监控网络。随着其技术的不
异常检测可视为非平衡分类问题,因此可借助解决该问题的方法来实现异常检测。近年来,对非平衡分类问题的研究在模式识别领域受到了广泛关注,并已取得了显著进展,相关成果已用
别名是C/C++程序的典型特征之一,通过别名分析可以提高数据流分析的准确性并且将有助于构建性能良好的程序分析工具。本文在综述别名分析的作用及研究现状的基础上,对别名信
无线传感网络是通过多个小型、低价、智能的传感器组成的监测网络,被广泛应用于医疗、军事、科研等领域。无线传感网络给生活带来便利的同时,我们也不得不关注传感器节点自身
随着信息技术的发展,人们对信息的安全性的要求越来越高,传统的身份识别方法已经不能满足社会发展的需求。在这种情况下,掌纹识别技术就随之诞生了。本文对掌纹图像的定位和
随着信息技术的飞速发展,互联网的信息量以指数方式增长,Web已经成为了信息的海量数据库。互联网为用户提供了良好的信息源,但是,如何快速、准确的从这个信息库中获取需要的