论文部分内容阅读
目前,随着DNA测序技术的发展,从细菌到高等真核生物,越来越多的全基因组序列数据正不断涌现。理论和计算将发挥日益巨大的作用,生物信息学作为一门崭新的前沿学科应运而生。基因识别是进行基因组分析的第一步,在生物信息学研究中占有重要的地位。本论文主要致力于原核生物的蛋白质编码基因识别算法的研究,以及对DNA序列的相关分析。
论文第一部分对当前生物信息学的主要研究内容和原核生物基因识别的背景作了简要介绍。
论文第二部分利用一些生物信息学工具,如Zcurve、Glimmer以及BLAST等软件,对一株蜡状芽孢杆菌(Bacillus cereus ATCC 10987)基因组中的蛋白质编码基因进行了分析,并将原RefSeq数据库标注的5603个基因重新注释为5180个基因,这个结果与该细菌亲缘物种的表现一致。另外,新注释在功能已知或保守基因的比例、平均基因长度以及GC含量等指标上明显优于原始注释,证明了重新注释的基因的合理性。
论文第三部分主要致力于一种新的识别细菌和古细菌基因组蛋白质编码基因的算法——Zcurve 2.0的研究。该算法以相位特异性Z曲线理论为基础,综合考虑密码子内部相邻碱基之间的相关性,发展了新的特征变量和样本。并在编码与非编码ORFs的分类算法方面,使用了支持向量机方法进行训练与判别。另外对现有基因组及其注释基因进行分析,从中生成用于评价各种基因识别算法性能的参考数据集。依据这419条染色体序列数据,将Zcurve 2.0与Zcurve 1.02、Glimmer 3.02进行比较。结果表明,三者的平均识别率相差很小;Zcurve 2.0和Glimmer 3.02的平均附加预测率处于同一水平,且均比Zcurve 1.02有明显降低;另外Zcurve程序的运行速度和易用性要远好于Glimmer 3.02。当把Zcurve 2.0和Glimmer 3.02联合使用时,预测成绩通常会显著提高。
论文第四部分描述了Z曲线数据库和必需基因数据库的更新。Z-curveDatabase 2.1提供了一个方便可视化分析基因组数据的有力平台;DEG 3.0为分析必需基因的统计特征,开发预测必需基因的算法提供了基础。