论文部分内容阅读
序列相似性分析是生物信息学中的一个重要研究内容。近些年来,数据库中生物序列的数量增长迅速,如何存储、解读、提取这些序列中的有用信息,就变得尤为重要。一般的序列分析方法有两类,传统的比对分析方法存在很多问题:占用内存、耗费时间,难以处理大规模的数据;对于突变率高,元素重组频繁,和发生水平基因转移、基因复制与基因缺失的序列来说准确率较低;多序列比对的精确计算是一个NP-hard难题,多元序列比对的方法不能统一等。为了解决这些问题,近三十年来,一些非比对分析法被大量提出。与DNA序列相比蛋白质序列更为复杂,因此,关于蛋白质序列的非比对分析方法相对较少。本文的研究方向为蛋白质序列的非比对分析,基于氨基酸的物理化学性质提出了两种不同的分析蛋白质序列的新方法:1、根据20种氨基酸的疏水性、极性、侧链的化学组成、等电点、平均质量和范德华体积等六个典型的物理化学性质将氨基酸分类,并用十七种符号重新定义,基于分类后的氨基酸的频率、平均位置和位置方差,定义了一个51维的数值向量来刻画蛋白质序列。在此基础上,选用向量之间的标准化欧式距离来计算蛋白质序列之间的相似性距离,进一步对蛋白质序列进行判别分析和系统进化分析。最后,以33个物种的甲型流感病毒数据集、9个物种的ND5数据集和8个物种的ND6数据集为例,使用该方法进行数据分析,得到的结果和实际情况吻合,进一步验证了该方法的有效性和可行性。2、我们将氨基酸的疏水性、极性、侧链的化学组成、等电点、平均质量和范德华体积等六个典型的物理化学性质数值分别进行数据标准化,在得到标准化物化性质数值的基础上,定义了一个新指标——氨基酸的平均物化性质值(Apv),该指标不仅包含六个物理化学性质的信息,更重要的是,每个氨基酸的Apv值各不相同。然后,采用累计距离计算蛋白质序列间的相似性距离。对于给定的蛋白质序列,根据氨基酸的位置和Apv绘制了2D曲线,避免了曲线的交叉和折叠,并基于这条新的蛋白质序列2D曲线和累计距离定性和定量分析了蛋白质序列的相似性/差异性。最后,以8个物种的ND6数据集和15个物种的甲型流感病毒数据集为例对该方法进行了说明,绘制了ND6数据集中蛋白质序列的2D曲线并计算得到其距离矩阵,构建了甲型流感病毒数据集的系统进化树,结果表明该方法可以有效地比较蛋白质序列之间的差异。