论文部分内容阅读
随着人类基因组和许多其它物种基因组序列测序计划的成功完成,生物学的研究从基因组时代步入后基因组时代。后基因组时代的主要目标之一是要阐明生物大分子间的相互作用机制。在生物体细胞中,作为遗传信息的体现者,蛋白质是最主要的生命活动过程的载体和功能执行者,它通过与其它生物分子相互作用来完成特定的功能。而识别蛋白质与核酸分子的相互作用位点不仅有助于揭示生命活动的本质,而且对疾病发生机制的了解及有效药物的开发均起到推动性的作用。虽然蛋白质中直接与核酸分子相互作用的残基只占蛋白质残基的一部分,但是这些结合位点对实现蛋白质的功能显得十分重要。因此,分析和识别蛋白质与核酸分子结合位点成为研究蛋白质功能实现机制的基础。 在过去的几年时间里,研究者开始关注利用生物信息学方法预测蛋白质上的功能残基。特别是基于机器学习的预测方法,从蛋白质的序列或结构信息出发预测功能残基。本文分析了蛋白质的进化保守信息,并在此基础上提出了预测蛋白质与RNA的结合位点的方法,然后从蛋白质的三维结构和拓扑结构信息出发设计出有效的特征和特征表示方法来描述和预测DNA结合残基。全文主要的研究内容概括如下: 1.选取蛋白质与RNA相互作用位点作为研究对象,对功能残基和其他残基的多种属性进行了统计分析,发现除了目前已广泛认可的进化保守性和溶剂可及性表面积这两种属性之外,蛋白质的骨架结构也能有效地反映相互作用界面与非界面之间的差异。进而联合上述三种属性,进一步提出了权重因子来定量描述周围氨基酸对中心氨基酸依赖距离的贡献,并利用支持向量机识别RNA结合位点。训练集上的交叉检验和测试集上的独立检验结果均表明了蛋白质的骨架结构在预测过程中发挥着重要作用,而且这三种属性间的互补性有利于提高预测精度。我们的方法与文献中已有报道的结果相比,在预测精度上得到了较大的提高。 2.通过对蛋白质中RNA结合残基注释,证实了我们方法的注释结果与实验注释结果相吻合。并且利用我们的模型能很好的注释蛋白质与RNA的相互作用模式,这些模式与实验注释结果一致,例如TSST模式。这是其他模型不具备的识别能力。 3.在前期工作的基础上,试图把我们的方法运用于DNA结合残基预测模型中的特征设计与分析。本工作首先构建了全新的DNA结合蛋白数据库,数据库由224条蛋白质序列构成。然后引入了新的结构比对算法,通过比较氨基酸-核酸亚基的几何结构相似性,得到蛋白质每个残基的几何结构相似性得分。并通过整合支持向量机与几何结构相似性的得分,最终得到蛋白质中每个残基的期望打分值。进而成功注释了蛋白质与DNA相互作用位点。我们的方法与文献中已有报道的结果相比,在预测精度上得到了较大的提高。这表明利用我们的模型特征可以给分子生物学家提供有用的信息。 4.对注释结果进行了全面深入的分析。首先对期望得分大于90%的位点分析得出,一些假阳位点位于DNA结合区域,并且还有一些假阳位点与其他生物学功能有关,例如,与水分子结合有关,与配体结合有关。其次对期望得分小于10%的位点分析得出,一些假阴位点通常位于二级结构的头部或者尾端。事实上,前人的工作已经指出这些区域的位点是很难识别的。对这些功能位点的识别是我们以后工作的重点。