生物信息学中蛋白质结构分析的计算方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:kinglesssss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物科学技术与计算机科学技术的迅速发展,孕育了一门新的学科——生物信息学。特别是人类基因组计划(Human Genome Project,HGP)的顺利实施和完成,极大地推动了这门新生学科的迅速发展。作为破译“生命天书”的新兴学科,生物信息学引起了人们广泛的研究兴趣。生物信息学的根本任务是从生物数据中发现知识,揭示生命的秘密与本质。作为生命物质基础的蛋白质,是各种生命活动的主要承担者,自然有着极为重要的研究意义和价值。  蛋白质空间结构因为与其序列和功能的密切关系,在生物信息学中有着重要的研究地位。由于在空间的扭曲、缠绕,蛋白质的空间结构变得异常复杂,使人们一时难以解开其“折叠密码”。现有的蛋白质结构模型,如距离矩阵、格点模型、连接图等,都属“离散型”模型。根据蛋白质分子的链式结构特点,运用B样条空间曲线理论,提出了一种新的蛋白质结构分析模型——B样条结构曲线,即BSSC(B-Spline Structure Curve)模型。它是一种“连续型”模型,其重要意义在于,可以使蛋白质结构相关问题的研究,运用连续数学的理论和方法来进行,从而克服了“离散型”模型的局限性。同时,BSSC模型具有连续性、可控性和可扩展性等特点。利用BSSC模型的这些特点,可将其扩展运用到诸如分子进化、蛋白质折叠等多个生物信息学问题的研究。  比较是科学研究的根本方法之一。对蛋白质的结构进行比较(在生物学意义上称之为比对)是预测其功能、分析其进化关系等问题的重要方法和途径。对应结构的空间叠合是蛋白质结构比较的基础。运用矩阵理论和奇异值分解方法,给出了一个加权对应结构的最优刚体叠合定理。该定理不仅给出了最优刚体叠合空间变换的旋转矩阵R和平移向量t,而且给出了直接计算空间叠合最小均方差RMSD(RootMean-Square Deviation)的表达式。  蛋白质结构比较(对)是生物信息学中的一个重要问题,其目的是通过数据库查询从蛋白质结构数据库中查找结构同源或结构类似的蛋白质分子。蛋白质结构比对是一个NP难问题。针对这个问题,人们已经提出了不少解决方法。但由于问题本身的复杂性,目前还没有一种方法被普遍认可。利用蛋白质结构BSSC模型,基于曲线匹配(Curve Matching)的思想,并结合动态规划(Dynamic Programming)算法,提出了蛋白质结构比对的CMDP(Curve Matching and Dynamic Programming)算法。该方法将曲率和挠率两个几何不变量作为特征描述对,把三维的结构曲线转换为一维的数值对字符串,从而简化了问题的难度。在分析曲线匹配问题中,提出了形状匹配二值打分矩阵——BSM(Binary Scoring Matrix of Shape Matching)的概念。利用这个打分矩阵,可以方便地提取两条结构曲线的最大形状匹配片段。在最大形状匹配意义下,将两个被比较蛋白质结构进行空间叠合,然后利用序列比对中常用的N-W动态规划法来提取两叠合结构的对应残基。N-W动态规划法具有允许比对结果序列中存在插入和删除,并能找出全局最优排列的特点。在运用N-W动态规划法提取两叠合结构对应残基的方法中,提出了另外一个打分矩阵——距离打分矩阵SMD(Scoring Matrix of Distance)。这个矩阵描述的是在给定的距离阀值意义下两叠合结构上残基对间的距离远近。为优化调整结构比对的结果,引入了数值计算中常用的迭代优化机制。实验表明,CMDP算法在计算时间和比对结果上,均得到了令人满意的结果。  在观察和分析蛋白质结构时,其异常的空间复杂性增加了问题的难度。为此,基于蛋白质结构的BSSC模型,利用空间曲线的小波分解方法,提出了蛋白质结构的多分辨率层次描述方法,从而提供了一种在不同分辨率层次上对蛋白质结构进行观察和分析的思路和工具。多分辨率分析思想为蛋白质结构相关问题的研究,特别是蛋白质分子体系的进化研究开辟了一条新途径。  值得指出的是,在方法论上为蛋白质结构相关问题的研究提供了两种新的研究思路:建立连续数学分析模型和运用多分辨率分析思想。生物信息学作为一门新生学科,其理论基础和研究方法还很不成熟。运用各种理论和方法,从不同的角度对其进行分析和研究,是一项既有重大意义又有挑战性的工作。
其他文献
论文以OSI/RM为基础,深入分析了各协议层次的公共属性和公共功能并利用面向对象建模技术(OMT)具有普适性的OSI/RM面向对象模型,该对象模型将OSI/RM划分成服务访问点 、服务提
学位
该论文首先介绍了课题开发的技术背景、开发环境及一些关键技术,然后详细论述了该系统的系统设计,最后深入研究与探讨了该系统的关键部分--数据字典子系统的设计与实现.
学位
该文从自动控制领域中模拟量的回路控制,开关量的顺序控制及人机接口三个主要问题入手,从理论上,同时结合作者主要参与完成的山东东明石化厂液蜡生产分子筛装置的DCS控制系统
网络管理是网络发展中一个很重要的关键技术,对网络的发展有很大的影响,并已成为现代通信网络中最重要的问题之一.TCP/IP网络技术在网络系统的广泛使用促使了网络管理的产生
学位
满文作为清代的官方方案,在中国的历史上曾经起着重要的作用.满文文献的研究对于研究清代及伪满洲国时期的科学和文化具有重要意义.基于这个目的,辽宁省档案馆与该研究室联合
学位
随着Internet的进一步发展及其在全球的迅速蔓延,引发了对传统教育模式的新一轮革命.该文提供了一个较完善的基于Internet的现代远程教育系统.该文设计实现了基于WWW的远程教