基于离散度量的进化树构建方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:zzjokok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
系统进化分析是生物信息学中的重要研究领域,它的主要研究手段是从一组同源的DNA或蛋白质序列出发,计算各个序列之间的进化距离,进而构建反映物种进化关系的进化树。构建进化树的方法主要分为三类,即距离法、简约法和似然法。其中,距离矩阵法以结构简单,具有良好的理论基础等特点获得广泛应用。本文将对距离法做一些探索性的改进研究。基于距离矩阵法是构建进化树方法中比较常用的一类方法,但是传统的基于距离矩阵法是建立在序列比对基础上的,使一些主观因素破坏数据的原始状态,导致计算结果因人而异。并且序列比对提高了进化树构建的成本,经过序列比对得到的距离易受序列长度影响,与真实进化距离的差别较大。所以本文为了解决这个问题,提出了新的相似距离度量算法-离散度量,这种度量法度量序列之间的距离不需要序列比对,没有主观因素干涉,而且比较直观,计算量小。并在此离散度量的基础上,提出来一种横纵法的改进算法,原横纵法在构造出连通图后,需要对所有的边的权重进行排序,而改进后的算法不需要进行排序,构造连通图的同时就可以直接构建进化树。基于离散度量的距离矩阵法是建立在信息理论法基础上提出来的。这种方法是在先将分子序列转换成可以让现有的线性代数、统计理论、信息理论等数学工具处理和分析的对象,进而再定义向量之间的两两相似度或不相似度。在文中采用信息增益来度量序列之间的相似性。该方法首先运用K串对DNA序列进行编码,提取序列之间的共同之处,然后计算信息增益来表示两两序列之间的相似度,再构建相似距离矩阵,然后在该相似距离矩阵的基础上构建进化树,并与其他方法进行了比较。基于LabVIEW平台的进化树构建系统,可以方便的从Excel或TXT文件中批量导入相似距离矩阵数据,并以图形化的形式表示出相应的进化树。为了评估该基于离散度量的构建进化树的方法,本文选取了10种胎生哺乳动物的线粒体全基因序列作为实验数据,并采用PHYLIP软件中的Neighbor.exe程序来评估的,通过做实验来验证算法的可行性。
其他文献
运动人体的检测与跟踪是当今计算机视觉领域的研究热点。随着社会公共安全体系的逐步完善,公共场所中对安全智能监控系统的要求越来越高,多家知名公司和科研机构对此都投入了
离群点挖掘是数据挖掘的重要研究内容之一,其研究目标旨在发现包含在数据中的少数异常而新颖的数据分布模式。近年来随着应用的不断深入而备受数据挖掘研究者们的关注,已经成
为保障公路交通运输的安全性及道路使用的耐久性、舒适性,减少超载超限车辆对道路破坏以及对运输安全带来的影响,需要测量车辆载荷,从而进行超载超限车辆的治理。传统的车辆
随着电脑及万维网的普及,通过Web获取信息并购买产品已经成为主流。然而网络上的信息资源以爆炸式的速度增长着,人们在购买产品之前要耗费大量的时间和精力去获取相关信息并
随着国民经济的快速发展与全球一体化的持续深化,近年来机电产品设备的需求量呈现出逐年大幅增加的趋势。工艺设计作为产品生产的核心环节,是控制生产成本,提高产品质量,缩短开发周期,合理利用工艺资源,提高企业竞争力的关键所在,也是数字化设计与制造以及定量化CAPP中尚待优化的难题。本文以机电产品的生产需求及工艺需求为基础,对机电产品工艺规划问题进行了较为深入地探讨,建立了工艺过程规划优化各个阶段的数学模型
随着计算机应用领域的不断扩张,计算机软件的开发规模逐渐扩大,软件复杂度不断增加,开发周期和开发成本也不断增长。为了解决这些问题,对象管理组织(OMG)提出了模型驱动结构
克隆代码普遍存在于软件系统中,它们可以加快开发速度,但同时也会引起一系列问题。当修改源代码涉及到某个克隆片段时,为确保克隆代码间的一致性,需要查找系统中所有与之构成
随着新一代测序技术的发展,人们发现在真核生物基因组中并不是所有的RNA都能编码蛋白质,其中大部分基因转录生成的RNA都不能编码蛋白质,这些RNA称为非编码RNA。其中一种新兴的非
随着软件规模的不断扩大和复杂程度的不断提高,软件产品面临着大量的并发用户和业务运算,因此软件的性能越来越受到业内的重视。在这种情况下,为了验证系统性能而执行的压力
随着信息化建设的飞速发展,网络已无处不在,这种技术给人们带来了很多方便,但同时也存在一些安全的问题。为了解决这些问题,人们提出了很多方法,其中入侵检测技术是解决安全问题的