蛋白质序列的非比对分析方法及其应用

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:wolffing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列相似性分析是生物信息学中的一个重要研究内容。近些年来,数据库中生物序列的数量增长迅速,如何存储、解读、提取这些序列中的有用信息,就变得尤为重要。一般的序列分析方法有两类,传统的比对分析方法存在很多问题:占用内存、耗费时间,难以处理大规模的数据;对于突变率高,元素重组频繁,和发生水平基因转移、基因复制与基因缺失的序列来说准确率较低;多序列比对的精确计算是一个NP-hard难题,多元序列比对的方法不能统一等。为了解决这些问题,近三十年来,一些非比对分析法被大量提出。与DNA序列相比蛋白质序列更为复杂,因此,关于蛋白质序列的非比对分析方法相对较少。本文的研究方向为蛋白质序列的非比对分析,基于氨基酸的物理化学性质提出了两种不同的分析蛋白质序列的新方法:1、根据20种氨基酸的疏水性、极性、侧链的化学组成、等电点、平均质量和范德华体积等六个典型的物理化学性质将氨基酸分类,并用十七种符号重新定义,基于分类后的氨基酸的频率、平均位置和位置方差,定义了一个51维的数值向量来刻画蛋白质序列。在此基础上,选用向量之间的标准化欧式距离来计算蛋白质序列之间的相似性距离,进一步对蛋白质序列进行判别分析和系统进化分析。最后,以33个物种的甲型流感病毒数据集、9个物种的ND5数据集和8个物种的ND6数据集为例,使用该方法进行数据分析,得到的结果和实际情况吻合,进一步验证了该方法的有效性和可行性。2、我们将氨基酸的疏水性、极性、侧链的化学组成、等电点、平均质量和范德华体积等六个典型的物理化学性质数值分别进行数据标准化,在得到标准化物化性质数值的基础上,定义了一个新指标——氨基酸的平均物化性质值(Apv),该指标不仅包含六个物理化学性质的信息,更重要的是,每个氨基酸的Apv值各不相同。然后,采用累计距离计算蛋白质序列间的相似性距离。对于给定的蛋白质序列,根据氨基酸的位置和Apv绘制了2D曲线,避免了曲线的交叉和折叠,并基于这条新的蛋白质序列2D曲线和累计距离定性和定量分析了蛋白质序列的相似性/差异性。最后,以8个物种的ND6数据集和15个物种的甲型流感病毒数据集为例对该方法进行了说明,绘制了ND6数据集中蛋白质序列的2D曲线并计算得到其距离矩阵,构建了甲型流感病毒数据集的系统进化树,结果表明该方法可以有效地比较蛋白质序列之间的差异。
其他文献
玉米是我国主要粮食作物之一,而玉米生长期间土壤水分含量是影响玉米产量的重要因素,快速、准确的检测玉米水分胁迫程度可及时指导大田水分灌溉,避免玉米植株由于亏水造成的
信息技术的发展深刻影响社会的方方面面,具体在教育领域,信息技术从最初的辅助作用发展为使教育信息化智能化,进而引发教育模式的改变,智慧教育便由此建立起来。而通信技术以
教育大计,教师为本,教育事业发展的关键在教师。由于教师职业具有复杂性和独特性,对教师的知识和技能要求严格,需要具备崇高的职业道德和专业知识能力,才能确保教育质量。教
目的:研究发现长期耐力训练能够增加骨骼肌中脂滴堆积和线粒体功能,但是其机制不清楚。研究发现,乳酸增加能够激活乳酸/GPR81信号通路,抑制c AMP-PKA-CREB信号通路来增加脂滴
近年来,视频监控在构建信息化、智能化的城镇建设中起着至关重要的作用,而行人重识别又是视频监控的重要研究内容。因此越来越多的研究者开始着力于研究行人重识别问题。行人
直接序列扩频通信和CDMA系统是现代通信系统中重要的通信技术之一。所有用户可以同时同频占用同一信道,使用不同的扩频码来区分不同用户。CDMA系统广泛应用于民用和军用通信
语音处理作为人机交互入口重要技术,可分为语音前端部分和语音后端部分。语音前端部分主要解决“听清”的问题,而语音后端解决“听懂”的问题。在背景噪声和干扰噪声存在的情
区别于传统的相对式测振方法,绝对式测振手段的应用一直是备受关注的,而对于低频、弱振动信号的检测又是绝对式测振方法的重要应用领域。本文设计了以磁悬浮效应为主体的低频
植物识别在林业养护管理、森林资源研究和自然环境监控等领域均有着重要的应用及价值。针对自然界中植物的单一器官识别不可靠和样本分布不平衡导致识别困难的问题,本文提出
奶牛体型线性评定是筛选出高产奶牛进行标准化养殖的关键技术,具有重要的应用价值。针对单个设备无法高精度构建出完整奶牛三维模型,难以实现奶牛体型线性评定体尺参数自动化