论文部分内容阅读
面对各种基因组计划和蛋白质组计划所得到的海量生物学数据,如何分析并从中获得生物学信息是后基因组时代的首要任务。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。非编码区广泛存在于真核生物中(例如,人的基因组中非编码区占有高达95%-97%的比例)。如此众多的非编码区在生命活动中具有广泛的调控作用。目前,各种生物的大量基因和非编码区还没有完全定位,所以对编码区和非编码区的研究是后基因组时代的重要任务之一。本论文主要应用张春霆院士提出的Z曲线理论和相关的生物信息学方法对禽流感病毒的蛋白质编码区和几种功能不同的非编码区序列进行分析。论文以数据库NCBI和NONCODE中的禽流感H5N1病毒序列和四类功能不同的ncRNA序列为研究对象,利用相应的绘图软件Z-plotter绘制出与所选择编码或非编码序列一一对应的Z曲线,分别计算出DNA序列中各种碱基的数量及在DNA序列中所占比例,进而求得每一序列的G+C含量。然后利用统计学的方法对所得曲线进行分析、比较,从而得到相关结论并以此作为预测非编码RNA功能的依据。然后论文又对Aeropyrum pernix K1基因组中原始注释为可能基因的2694个ORFs进行了重新识别。按照聚类算法中的编码指标AZ,依据AZ>0或AZ<0来判定ORFs属于编码或非编码ORFs。重新注释的结果是,Aeropyrum pernix基因组中编码基因的数目被重新确定为1581个,其余的1113个被判定为非编码基因。