论文部分内容阅读
蛋白质相互作用热点预测是功能蛋白质组学中主要研究内容之一。Clackson观察hGH与hGHbp结合时发现极少数残基释放大量的能量,由此引起研究者兴趣。之后研究者将这些极少数的发挥关键作用的氨基酸残基定义为热点残基。热点残基不是均匀分布于蛋白质相互作用的结合面,而是聚集在一起形成“热区”。 热点残基的预测是一个复杂的问题,涉及蛋白质的结构、序列以及结合面等方面。已有的热点残基的预测方法取得了一些成果,但是由于对决定热点残基的生物学特征没有充分的理解,热点残基预测结果还有改进的余地。基于特征的方法结合机器学习算法避免传统方法实验周期长、计算代价高以及不能大规模应用的缺点,是一个新兴的研究方向。本文提出了一种基于多种特征预测蛋白质热点残基的方法,首先,提取了多种与热点相关的蛋白质序列与结构特征,然后利用了F-score和mRMR选择蛋白质氨基酸理化属性的加权疏水性、加权残基接触数、结构属性溶剂可接近面积和残基突出指数等特征,最后采用机器学习SVM算法对选定的数据作预测分析。 实验结果表明,本文提出的热点残基的预测方法达到了预期的预测精度。与已有的方法对比,所提方法在相同的数据集上包括训练集以及测试集都达到了预期目标,体现了提取特征的有效性。本文工作为蛋白质相互作用热区预测打下了较好的基础。