论文部分内容阅读
生物信息学是用计算机来处理和研究生物信息的一门新兴学科,随着生物信息学迅速发展,各种数据库不断涌现,并各具特色。对平均十四个月翻一番的基因序列数据进行存储管理和比较分析等,以便满足生物学研究人员研究和应用的需求。其中序列相似性比较是生物信息处理中最基本的一个问题。如何在有效的时间和空间里得出更加准确的相似比对是目前生物科学与计算机科学结合一起所面临的一个重要课题。本文围绕基因序列比对,先后讨论了早期的序列比对方法、基于几何学的序列转换和比对方法、用于比对查找的生物信息系统等。主要工作有:(1)本文开发了一个基于B/S结构的基因序列分析系统,该系统可以供用户方便的使用。系统可以划分为三个层次:数据库服务层、比对与分析服务层和客户端交互层。B/S结构最大的优点就是可以在任何地方进行操作而不用安装任何专门的软件。只要有一台能上网的电脑就能使用,客户端零维护,更加容易扩展系统。本系统具有:用户管理、序列文件管理、比对查找、基因序列图形化等功能。(2)系统能够完成基因文本序列和Z曲线之间的相互转换,对用户提供了Z曲线的生成显示。提取了Z曲线的一些属性,如曲线的几何中心和Z曲线末点。Fr’echet距离是一种比较高级的判断曲线之间相似性的距离的测度,它最先起源与人狗距离模型。利用Z曲线性质,借鉴几何学中离散Fr’echet距离表示的双离散曲线的相似度,并且结合了DNA序列在进化过程中所具有的碱基突变特征,得到一种基于几何学方法来对两条基因序列之间相似比对的三步人狗模型。(3)建立了具有特定种群的基因序列二级数据库,系统的数据来源于国际一级数据库GenBank,比对算法继承了经典的动态规划算法和本文的基于几何学的基因序列比对算法。使用本系统的用户可以查找与输入的一段基因序列片段最为相似基因序列,系统能够返回多条比对结果并且按照本文所给出的得分策略排序。(4)对10种生物的同源基因E2B,分别计算由NW算法、Z曲线终点距离、离散Fr’echet距离和、三步离散Fr’echet距离的标准差四种方法所得到的相似性比对得分。再对四种得分进行归一化处理,得出利用曲线相似性比较也能够真实的反应基因序列之间相似性。用GeneBank FTP服务器中脊索动物门的大小为45112kb的序列文件gbvrt5作为本文数据库的入库数据。进行比对搜索测试,和分析偏离四种统计属性delt值的大小对比对时筛选子集大小及比对耗时的影响。通过本文的创新尝试,利用一种直观的离散曲线比对方法对两条基因序列进行相似度判定,可以在有效的前提下更加快速的从数据库中找出最优的序列集。用户也可以主动的设定一些与目标序列的统计特征值的偏离大小来进一步缩小或者扩大待比较子集,从而满足对精确度和时间有不同要求的用户。