论文部分内容阅读
生物信息学是在生命科学研究中综合运用数学、计算机科学和生物学知识与工具对生物信息进行存储、检索和分析的新兴交叉学科,是当今生命科学的重大前沿领域之一,也将是21世纪自然科学的核心领域之一。其中序列比对分析是生物信息学计算的核心,也是许多领域的关键研究手段。正是基于这种研究现状,本论文以序列比对问题作为主要研究内容,针对基于结构的RNA序列比对问题展开研究。
本文的主要工作包括:
1、详细讨论了生物信息学中的序列比对问题,分析了相应的各种算法;
2、系统研究了RNA序列分析所用到的Rfam数据库及INFERNAL软件包,给出了比对分析的具体流程;
3、详细讨论了进行RNA结构比对分析所采用的协方差模型和理论方法,给出了完整的理论分析过程:首先通过KNA的多重比对得到一致序列的二级结构,由二级结构信息生成向导树,根据向导树便可得到所需的协方差模型,进而执行此模型与目标序列的比对分析。
4、针对在与中科院生物物理所的合作研究中发现INFERNAL软件包的运行存在效率较低的问题提出了并行优化的设计思想,结合MPI消息传递环境实现了程序的并行化,完成了程序的并行版本。通过在联想深腾6800高性能计算机上进行性能测试,得到了较理想的加速比和较高的并行效率。试验表明,并行优化程序对于大数据量的结构比对能有效缩短执行时间,因此具有显著的现实意义。
5、考虑到生物信息研究中出现的资源孤岛问题,并结合国家863项目“中国国家网格”的实际需求,讨论了GOS网格操作系统和中国国家网格环境,并将INFERNAL并行优化程序成功移植到网格环境下,实现了其基于Web方式的网络服务功能。从而能够为生物信息的研究工作者提供更为便捷的服务。