论文部分内容阅读
在许多重要的生命活动中,蛋白质功能的实现需要通过与配体相结合,钙离子就是一种重要的蛋白质结合配体。因此,识别蛋白质中的钙离子结合残基会对蛋白质功能的研究和药物开发提供重要的帮助。虽然利用实验手段测定蛋白质中钙离子结合残基的准确性很高,但是其时间和经济成本高昂。因此,通过理论计算的方法对大量蛋白质中钙离子结合残基进行高效率识别是目前研究蛋白质功能的重要手段之一。 本文基于序列信息识别蛋白质中钙离子结合残基,主要工作如下: (1)建立了新的钙离子结合蛋白质数据集,包含277条序列相似性小于30%,分辨率小于3?的钙离子结合蛋白质链,共包含1801个钙离子结合残基。使用“滑动窗口”截取固定长度的序列片段,通过对不同长度序列片段识别结果的统计分析,最终确定以17个氨基酸残基为片段长度。 (2)依据钙离子结合残基生物学背景,对钙离子结合残基片段和非钙离子结合残基片段进行统计分析和残基理化特性研究,选取离散增量算法、矩阵打分算法和支持向量机算法对数据集set1中钙离子结合残基进行识别,其中基于离散增量值、矩阵打分值和自交叉协方差值的支持向量机算法获得最佳识别结果,使用五交叉检验,识别精度为75.0%,马氏相关系数为0.50。 (3)本文使用融合参数的支持向量机算法对钙离子结合残基进行了识别,并引入新的特征参数:中心模体。通过逐一向支持向量机中添加特征参数,分析了不同参数组合对算法识别能力的影响。同时为了进一步验证本文识别算法的普适性,本文整理了前人的钙离子结合残基数据集(set2,set3,set4)。对四个数据集的识别结果表现出相同的递增趋势,并最终均达到最佳识别结果。为了对比前人研究的识别结果,本文使用十交叉检验和独立检验对数据集set3和set4进行识别,并得到了好于前人的识别结果。 (4)本文建立了钙离子结合残基的在线识别页面,广大研究工作者可以通过本地浏览器访问该服务器页面获得蛋白质序列中钙离子结合残基的识别结果。