基于位置序列的蛋白质序列相似性分析及其应用

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:hu_jie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物信息学的应运而生和人类基因组进化的提出和发展,越来越多的生物序列数据被广泛应用到科学研究中,而生物序列数据中蕴含着大量的生物信息,且随着科学技术的快速发展,越来越多的蛋白质序列需要进行分析。蛋白质是保证生命活动的物质基础,通过对蛋白质的了解,人类一方面可以更好地认识生命的本质,另一方面还可以促进人类的健康发展。蛋白质也是遗传信息的载体,所以研究蛋白质具有极其重要的生物学意义。蛋白质序列可以决定蛋白质结构,进而决定蛋白质的功能。所以对蛋白质序列的分析是进行蛋白质的结构和功能分析的基础,也是根据已知序列对未知序列进行研究的基础。基于氨基酸的位置信息,本文对蛋白质序列的相似性分析方法进行了相关研究,主要内容包括以下两点:(1)通过定义蛋白质序列的两种k-字区间平均距离,构建蛋白质序列的数值向量表示,在此基础上提出了两种基于k-字位置序列的蛋白质序列的相似性分析方法,分别称为标准化的k-字区间平均距离的方法和改进的标准化的k-字区间平均距离的方法。利用向量之间的欧氏距离或曼哈顿距离得到物种间的相似性距离,进而得到序列的聚类图。以9个物种ND5蛋白质序列和8个物种的ND6蛋白质序列两个数据集来验证这两个方法的实用性和有效性。通过交叉验证方法可知基于改进的标准化的k-字区间平均距离的方法在准确度和标准差上均优于基于标准化的k-字区间平均距离的方法。(2)将氨基酸的9个经过标准化处理后的物化性质和氨基酸出现的频率和平均位置结合起来构建了蛋白质序列的49-维的数值向量表示。利用向量间的欧氏距离以刻画物种间的相似性距离,进而可以得到序列间的系统进化树。利用该方法构建了9个物种ND5蛋白质序列和8个物种ND6蛋白质序列的系统进化树。以成熟的比对方法Clustal W的相似距离为标准,评价了本文提出的非比对分析方法,结果表明:基于标准化后的物化性质的方法与基于k-字位置序列的数值化表示方法和已有方法相比较,不仅在数值化向量表示的维数上相对较低,且最终的分类结果较为理想和稳定。最后,将本文提出的方法应用到28个流感病毒的蛋白质序列数据集上,结果表明:本文的方法是可以广泛有效地应用到蛋白质序列的比较上。
其他文献
燃烧器是锅炉燃烧系统的重要组成部分,分析和研究了目前国内比较典型的多种直流燃烧器,最后提出了一种满足我国燃煤要求的新型燃烧器的构想,并进行了简要的分析.
介绍针对HFF240301E型差速器壳"结构造成热节多、内部缩孔缩松多"的特点和问题,同主机厂同步设计,考虑铸造工艺的客观需要,结构设计上避免热节的出现,通过采用组合整体砂芯方
近年来,随着我国经济的持续高速发展,随之而来的重金属废水污染问题也日益严重。介孔二氧化硅材料是近年来被广泛研究的一种新型多孔材料,具有比表面积高、孔体积大、孔道结
学前教育专业学生的师德培养是学生成为合格幼儿教师的重要保障.文章在分析学前教育专业学生师德培养必要性的基础上,提出应以课堂为主渠道、以环境影响为先导、以各类活动为
随着微生物组学在中枢神经系统疾病中研究的不断深入,肠道菌群在脊髓损伤中的作用也受到广泛关注。目前主要研究脊髓损伤后肠道菌群的变化特点及菌群代谢产生的芳香烃受体激
生态是自然的状态,人类生存于自然环境中,有史以来就应是生态的和谐存在与发展。在农耕时代,人类虽然不自觉生态的价值与意义,却是敬畏自然,与自然平等相处而符合生态伦理的。然而
<正>为有力保障全市公安队伍以最优状态、最严纪律、最强作风投入新中国成立70周年大庆安保维稳各项工作,天津市纪委监委驻公安局纪检监察组认真履责、主动作为,采取"三严措
<正> 1992年10月3日在乌鲁木齐市召开的“20世纪西域考察与研究”国际学术讨论会,收到中外学者提交的专著5部、译著1部,资料2部,论文39篇。这些成果涉及的内容十分广泛,包括2
齿轮箱是传动机械中重要零部件,其运行状态关系到整个机械设备的生产。齿轮箱的运行环境和工况比较复杂,齿轮是其中容易发生故障的元件。据统计,齿轮裂纹和齿面断裂这两种故
一半是大陆、一半是海洋、处于中国东海岸中央的宁波,在七千年的文明流转过程形成了怎样的城市特色.城市气派.城市风格的话语与思想?对中华文明的发展起到了怎样的作用?本栏目力图