原核生物基因识别新算法研究及DNA序列分析

来源 :天津大学 | 被引量 : 0次 | 上传用户:xrq_sjj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,随着DNA测序技术的发展,从细菌到高等真核生物,越来越多的全基因组序列数据正不断涌现。理论和计算将发挥日益巨大的作用,生物信息学作为一门崭新的前沿学科应运而生。基因识别是进行基因组分析的第一步,在生物信息学研究中占有重要的地位。本论文主要致力于原核生物的蛋白质编码基因识别算法的研究,以及对DNA序列的相关分析。 论文第一部分对当前生物信息学的主要研究内容和原核生物基因识别的背景作了简要介绍。 论文第二部分利用一些生物信息学工具,如Zcurve、Glimmer以及BLAST等软件,对一株蜡状芽孢杆菌(Bacillus cereus ATCC 10987)基因组中的蛋白质编码基因进行了分析,并将原RefSeq数据库标注的5603个基因重新注释为5180个基因,这个结果与该细菌亲缘物种的表现一致。另外,新注释在功能已知或保守基因的比例、平均基因长度以及GC含量等指标上明显优于原始注释,证明了重新注释的基因的合理性。 论文第三部分主要致力于一种新的识别细菌和古细菌基因组蛋白质编码基因的算法——Zcurve 2.0的研究。该算法以相位特异性Z曲线理论为基础,综合考虑密码子内部相邻碱基之间的相关性,发展了新的特征变量和样本。并在编码与非编码ORFs的分类算法方面,使用了支持向量机方法进行训练与判别。另外对现有基因组及其注释基因进行分析,从中生成用于评价各种基因识别算法性能的参考数据集。依据这419条染色体序列数据,将Zcurve 2.0与Zcurve 1.02、Glimmer 3.02进行比较。结果表明,三者的平均识别率相差很小;Zcurve 2.0和Glimmer 3.02的平均附加预测率处于同一水平,且均比Zcurve 1.02有明显降低;另外Zcurve程序的运行速度和易用性要远好于Glimmer 3.02。当把Zcurve 2.0和Glimmer 3.02联合使用时,预测成绩通常会显著提高。 论文第四部分描述了Z曲线数据库和必需基因数据库的更新。Z-curveDatabase 2.1提供了一个方便可视化分析基因组数据的有力平台;DEG 3.0为分析必需基因的统计特征,开发预测必需基因的算法提供了基础。
其他文献
学位
以5个引种丝瓜品种“上海常丰香”、“赛佳丽”、“早杂先锋”、“早杂霸王”、“寿光绿丝瓜”为试材,在西宁地区日光温室条件下,测定和综合比较了各引种品种的植株生长状况
在社会经济快速发展、人民生活水平不断提高的同时,生活垃圾的生成量也呈大幅增长趋势,环境承载力面临着巨大的挑战。研究生活垃圾减量化、无害化和资源化技术途径,对我国生态环
‘春韵兜兰’(Paphiopedilum SCBG Prince‘Spring rhyme’)由华南植物园生物技术育种研究组曾宋君研究员、吴坤林博士、段俊研究员等科研人员与广州华大锦兰花卉有限公司合
摘要:提问是课堂教学的重要环节,是实现师生互动、促进教学顺利发展的前提和基础。在教学中,要想充分发挥学生学习的主动性和积极性,形成良好的教学氛围,就必须有效利用课堂提问,把课堂提问的教学功能充分发挥出来。初中历史教学中,课堂提问形式多种多样,至于采取哪种方式要根据教师的教学策略而定。  关键词:初中历史;课堂提问;历史教学  著名的教育家叶圣陶认为课堂教学中“一要提问,二要指点。宜揣摩何处为学生所
期刊
细胞外调节蛋白激酶(extracellular signal-regulated kinases,ERK1/2)是丝裂原活化蛋白激酶(mitogen-activated protein kinases,MAPK)家族的经典转导通路之一,是目前研究最为
乱子草属Muhlenbergia Schreber,属禾本科虎尾草亚科Chloridoideae(或画眉草亚科Eragrostoideae),约155种,分布于北美、喜马拉雅至日本,但主产地为北美,我国约有6种,分布几遍
新疆土壤由于环境特殊,人为干扰较少,拥有巨大的微生物资源宝库,但是目前通过传统培养方法能分离到的生境中的菌种不到总量的0.01%-10%,大部分微生物资源因为处在活的不可培
本文通过对荣华二采区10
期刊
‘顺科红韵’蝴蝶兰是以‘红龙’为母本,‘V31’为父本杂交育成的新品种。花深紫红色,花朵数10~12朵;花大,花径11.2~12.1 cm;在北京地区夏季夜温18~20℃,30~35 d可完成花芽分