论文部分内容阅读
随着一些微生物基因组、人类基因组、拟南芥基因组和水稻基因组全序列测定项目的完成和快速进展,以及各种生物的基因和蛋白序列的研究,产生了越来越多的庞大的分子序列数据。对其进行科学的分析、处理和保存推动了分子生物学和数学以及计算机科学的结合,近几年,计算分子生物学已成为生命科学中异常活跃的一个研究领域。计算分子生物学作为现代信息科学、计算机科学、生命科学、数学、统计学、物理学、化学等很多学科相互渗透形成的一门崭新的交叉学科,主要是研究分子生物学与基因和蛋白质序列有关的复杂计算问题。本文将在生物序列的相似性分析和比较、种系发生树的构建等方面进行研究,主要研究成果有:
1、在第二章,提出了图形表示单元和系统的概念,在此基础上给出了DNA序列的一类2D图形表示;利用核苷酸基的分类给出了分布曲线的图形表示;根据不同图形表示的特点提取了几种新的DNA序列标识符;利用不变量方法分析了11个物种的β-球蛋白基因第一个外显子编码序列之间的相似性。本文方法的计算复杂性仅仅是O(N),大大降低了原来矩阵不变量方法的计算复杂性(至少为O(N2))。
2、在第三章,将二维图形表示及其不变量方法改造用于RNA二级结构的相似性分析,以九种病毒的RNA-3末端的二级结构为例,详细介绍了RNA二级结构的相似性分析方法,方法具有易操作性。
3、在第四章,根据氨基酸的分类及其理化性质给出了蛋白质序列的几种图形表示和矩阵表示,利用几何中心、矩阵最大特征值、平均频带宽度等代数不变量进行了蛋白质序列的相似性分析。本章给出的不变量具有较强的生物意义。
4、在第五章,介绍了系统发生树的建树方法、构建进化树的主要步骤以及常用软件包,然后我们基于线粒体基因组中核苷酸三联体构建了34个物种的种系发生树。