论文部分内容阅读
生物基因组研究是后基因时代研究生物信息学的热点问题。生物序列分析和分子对接是生物基因组研究中的两个研究内容。前者是研究动植物种类进化史、进行生物序列的结构和功能预测、识别保守模式等课题的基础,后者研究的是蛋白质受体与配体之间的相互作用与识别,它对揭示蛋白质的分子生物学机理具有重要意义,同时在计算机辅助药物设计与复合结构预测等方面具有重要应用价值。
生物序列分析的研究对象主要是DNA序列和蛋白质序列,由于DNA序列只由四种单元构成,所以其研究方法发展较快。其中,Z曲线分析方法是应用非常广泛的一种研究方法,已经得到国内外学术界的普遍好评和认可。而蛋白质序列由于构成单元多达二十种,所以研究方法发展较慢,如何找到较好的方法来表示和分析蛋白质序列是近年来的研究热点之一。
目前已经存在不少用于分子对接的方法,其中3D-Dock是应用最为广泛的方法,它使用FFT算法进行搜索的加速,在过滤候选构象时考虑了受体分子与配体分子的几何互补性,并用静电作用进行过滤,但是它的精确性还有待提升。
本文一方面将Z曲线应用到蛋白质序列分析的研究中,另一方面在3D-Dock方法的基础上,增加打分项,加强打分函数的过滤能力,主要工作分为两部分:
第一部分首先研究了Z曲线的建立方法,然后根据Z曲线的原理及思想,将其移植到蛋白质序列分析当中,对氨基酸分类之后建立蛋白质的Z曲线,接着将Z曲线量化成为向量,并按欧式距离、角度和线性相关系数这三个指标进行比较。实验表明,按照上述三个指标可以将蛋白质比较合理地分类。
第二部分工作先研究3D-Dock方法的流程,然后在3D-Dock方法的基础上,增强了它的打分函数,加强其过滤的能力,增加的项有残基自由能和原子接触能。原子接触能是Z-Dock方法提出的能量项。原本Z-Dock将原子接触能与几何互补性、静电作用加权计算,作为过滤的依据。而本文将原子接触能作为过滤的独立项,并采用相同的计算方法,增加了残基自由能项,并同样用作过滤构象的独立项。从实验可见增加了这两个打分项之后,程序提供的候选构象比原程序提供的候选构象更好。