论文部分内容阅读
蛋白质相互作用在生物体的许多细胞过程中发挥着重要的作用,蛋白质相互作用知识对研究各种疾病的发病机制与治疗、生命活动的分子机制都具有十分重要的意义。因此,研究和开发有效的计算方法来预测和分析蛋白质相互作用显得尤为重要。本文围绕基于计算方法预测蛋白质相互作用的两个重要方面:特征提取方法和分类算法展开研究。主要创新点如下:(1)基于蛋白质序列特征提取方法的研究。提出一种基于局域蛋白质序列PSSM矩阵编码的串行多特征融合特征提取方法。该方法通过局域编码捕获序列上连续的和间断的蛋白质相互作用信息;通过串行多特征融合实现序列中蕴含的多种关键特征信息的整合;通过在yeast和human数据集上与其它特征提取方法的实验对比分析,证明了本文提出特征提取方法的有效性。(2)基于蛋白质相互作用有监督预测分类器的研究。提出一种基于灰狼优化和K折交叉验证的组合核相关向量机分类算法。该算法通过灰狼优化和K折交叉验证的智能寻优算法得到RVM核函数宽度的最优解;通过建立基于局部高斯核和全局二次多项式核的组合核函数,不但克服了RVM在大样本数据集上单一核函数运行模式预测精度低的缺陷,而且充分考虑了蛋白质相互作用发生位置的局部性和全局性的特定特征;通过在yeast和human数据集上,提出的核参数智能寻优算法、组合核RVM和构建的预测模型分别与其它智能寻优算法、基于单核的RVM和其他预测模型的实验对比分析,证明了本文提出的有监督分类算法的有效性。(3)基于蛋白质相互作用半监督预测分类器的研究。提出一种基于AP聚类与Renyi熵融合的自训练半监督相关向量机分类算法。该算法通过AP聚类分析与Renyi熵共同决定无标签样本的标签类别,极大降低了噪声数据对分类器预测精度的影响;通过将置信度高的无标签样本添加到训练集,用扩充后的训练集进行自训练迭代分类,构造出了性能最优的半监督分类器;通过在M.musculus、H.pylori和H.sapiens数据集上的实验验证,证明了本文提出的半监督分类算法的有效性。(4)设计开发了分别针对yeast和human数据集的有监督分类预测及M.musculus、H.pylori和H.sapiens数据集的半监督分类预测的蛋白质相互作用在线预测系统。