论文部分内容阅读
随着生物信息学的应运而生和人类基因组进化的提出和发展,越来越多的生物序列数据被广泛应用到科学研究中,而生物序列数据中蕴含着大量的生物信息,且随着科学技术的快速发展,越来越多的蛋白质序列需要进行分析。蛋白质是保证生命活动的物质基础,通过对蛋白质的了解,人类一方面可以更好地认识生命的本质,另一方面还可以促进人类的健康发展。蛋白质也是遗传信息的载体,所以研究蛋白质具有极其重要的生物学意义。蛋白质序列可以决定蛋白质结构,进而决定蛋白质的功能。所以对蛋白质序列的分析是进行蛋白质的结构和功能分析的基础,也是根据已知序列对未知序列进行研究的基础。基于氨基酸的位置信息,本文对蛋白质序列的相似性分析方法进行了相关研究,主要内容包括以下两点:(1)通过定义蛋白质序列的两种k-字区间平均距离,构建蛋白质序列的数值向量表示,在此基础上提出了两种基于k-字位置序列的蛋白质序列的相似性分析方法,分别称为标准化的k-字区间平均距离的方法和改进的标准化的k-字区间平均距离的方法。利用向量之间的欧氏距离或曼哈顿距离得到物种间的相似性距离,进而得到序列的聚类图。以9个物种ND5蛋白质序列和8个物种的ND6蛋白质序列两个数据集来验证这两个方法的实用性和有效性。通过交叉验证方法可知基于改进的标准化的k-字区间平均距离的方法在准确度和标准差上均优于基于标准化的k-字区间平均距离的方法。(2)将氨基酸的9个经过标准化处理后的物化性质和氨基酸出现的频率和平均位置结合起来构建了蛋白质序列的49-维的数值向量表示。利用向量间的欧氏距离以刻画物种间的相似性距离,进而可以得到序列间的系统进化树。利用该方法构建了9个物种ND5蛋白质序列和8个物种ND6蛋白质序列的系统进化树。以成熟的比对方法Clustal W的相似距离为标准,评价了本文提出的非比对分析方法,结果表明:基于标准化后的物化性质的方法与基于k-字位置序列的数值化表示方法和已有方法相比较,不仅在数值化向量表示的维数上相对较低,且最终的分类结果较为理想和稳定。最后,将本文提出的方法应用到28个流感病毒的蛋白质序列数据集上,结果表明:本文的方法是可以广泛有效地应用到蛋白质序列的比较上。