论文部分内容阅读
启动子区域是位于转录起始位点(TSS)上游的转录因子和RNA聚合酶的结合位点,这些蛋白质分子与特异的核苷酸序列相互作用,在基因的转录过程中发挥重要的作用,故是基因表达调控的一个重要调控点。由于启动子序列多变复杂的结构特征,目前精确地预测识别启动子和调节序列仍然处于初级阶段。一级结构是DNA分子的基础,尽管DNA分子的结构特征与理化特征最终是由核苷酸序列自身决定的,但是DNA序列自身并不起主要作用,其功能主要为维持DNA分子的空间结构特征。DNA分子的空间结构理化特征,例如:可弯曲性、核小体位置、碱基堆积力、刚性、双链自由能、核苷酸组成对于特异蛋白质分子的识别结合具有重要的作用。 本文中,采用一种新方法:根据DNA分子结构特征和理化参数特征,运用生物信息学的方法,预测植物基因组拟南芥之中的启动子序列。本文计算并分析启动子区域的生物物理特征,包括二核苷酸规模,例如:自由能、碱基堆积力、螺旋桨式扭转角度和三核苷酸规模,例如:弯曲度、蛋白质诱导变性、核小体位置等(共28个理化参数)。利用这些结构模型把DNA序列转换成数值,在某种程度上提供了另外一种可替代的补充方法来代表DNA序列。研究结果表明:像自由能、碱基堆积力、可弯曲性等这些理化参数在转录起始位点附近具有明显的曲线变化,但是在不同的参数特征之间,曲线改变趋势存在差异。此外,位于转录起始位点附近的上下游序列之间具有明显的不同,这些不同的表现特征可以用来预测植物基因组中的启动子序列,进而提高了启动子预测的特异性。最后,本文主要根据自由能特征,运用“Prom predict”算法系统地预测了拟南芥全基因组的启动子序列,进而得到启动子预测的敏感性和精度。拟南芥中蛋白编码基因的敏感度和精确度分别为96%、42%,非编码基因的敏感度和精确度分别为94%、75%。与现有的启动子预测软件相比,提高了启动子的预测能力。