论文部分内容阅读
随着蛋白质测序技术的发展,蛋白质序列数据量不断增加,使得采用数据驱动的方法通过蛋白质序列预测蛋白质结构和功能成为可能。频率谱中包含大量的进化信息,它能够从进化的角度更加准确的表示蛋白质序列,因此利用频率谱中包含的进化信息解决生物信息学中的问题具有重要的意义。 本文从如何利用频率谱中的进化信息的角度出发,对蛋白质结构和功能预测的一些重要问题进行了深入的研究。本文研究内容包括以下几个方面: 第一,本文提出了一种新的蛋白质序列组成成份:排序谱。排序谱包含频率谱中的进化信息。通过统计排序谱在蛋白质无序区和有序区出现频率的差异计算得到排序谱长无序区倾向性。倾向性和位置特异性分数矩阵作为特征输入逻辑回归模型预测蛋白质长无序区。在五份交叉验证中,本文提出的方法的AUC指标为97.5%,远远高于其他方法。在独立测试数据集上的实验结果更进一步证明本文提出的方法可以明显提高蛋白质长无序区预测效果。与氨基酸长无序区倾向性相比,排序谱长无序区倾向性可以明显提高预测效果,说明引入进化信息对蛋白质长无序区预测具有重要意义。 第二,在蛋白质远程同源性检测和折叠识别领域中,基于支持向量机的方法的性能最佳。提高基于支持向量机方法的预测效果的关键步骤是寻找到一种恰当的蛋白质序列向量化方法。本文提出一种基于Top-n-gram的蛋白质序列向量化方法,并采用此方法成功解决了蛋白质远程同源性检测和折叠识别问题。Top-n-gram是本文提出的另一种包含进化信息的蛋白质序列组成成份,它提取了频率谱中的进化信息。通过统计每条蛋白质序列中每种Top-n-gram出现的次数,将蛋白质序列转化为固定长度的向量。本文通过采用潜在语义分析进行特征提取,在有效去除特征中的噪音的同时降低了特征向量的维数,从而进一步提高了远程同源性检测和折叠识别的效果。本文采用支持向量机作为分类器。在超家族和折叠数据集上的实验结果表明本文提出的方法的预测效果显著优于其他对比方法。 第三,本文提出了一种新型的蛋白质相互作用位点倾向性,即排序谱相互作用位点倾向性。此种倾向性与两种其他类型的相互作用位点倾向性进行了比较,分别是氨基酸相互作用位点倾向性和二进制谱相互作用位点倾向性。本文提出的蛋白质相互作用位点预测方法采用的分类器为支持向量机,输入特征为相互作用位点倾向性、位置特异性分数矩阵和溶剂可及表面面积。在四类复合物(非同源永久性复合物、非同源短暂性复合物、同源永久性复合物和同源短暂性复合物)数据集上的测试结果显示与其他类型的倾向性相比,排序谱相互作用位点倾向性可以明显提高蛋白质相互作用位点的预测效果。 第四,本文提出了一种基于隐马尔可夫支持向量机的蛋白质相互作用位点预测方法。该方法基于最大边界理论,把蛋白质相互作用位点预测作为序列标注任务。输入隐马尔可夫支持向量机的特征为基于蛋白质序列和结构的特征,包括位置特异性分数矩阵、溶剂可及表面面积和排序谱相互作用位点倾向性。在六个数据集上的实验结果表明基于隐马尔可夫支持向量机的蛋白质相互作用位点预测方法优于其他方法(包括神经网络、支持向量机和条件随机域)。 当把排序谱相互作用位点倾向性作为额外特征加入隐马尔可夫支持向量机时,本文提出的方法的性能有显著的提高。此方法有三个优点:1)采用序列标注方法把蛋白质序列作为一个整体预测,因此可以利用临近氨基酸之间的类别信息;2)隐马尔可夫支持向量机基于最大边界理论,可以有效利用核方法;3)由于在训练过程中采用割平面算法,使得隐马尔可夫支持向量机的训练时间和训练样本数量呈线性关系。