论文部分内容阅读
随着人类基因组计划的实施及基因草图的完成,生物科学与技术得到了迅猛发展,同时积累了大量的相关数据,并且这些数据的增长速度已经远远超出了人们的想象。面对如此海量的数据,如何能够找到我们所需的信息成为了一项重要而又艰巨的工作。启动子作为调控基因转录的重要调控元件,在构建基因转录调控网络方面起着尤为重要的作用,加之真核启动子与原核启动子相比有着更为复杂的结构,故此真核启动子识别已成为当前基因组研究工作中的热点及难点。目前在启动子识别方面已经提出了许多算法,但都普遍存在假阳性较高的问题。为了改进现有启动子识别算法存在的不足,进一步提高算法的启动子识别性能,本文将Z曲线理论及启动子的结构特征应用到启动子预测的研究中来,提出了基于结构特征及Z曲线特征的真核启动子识别算法。所选取的6类结构特征能够较好地描述基因序列的空间形态,所选取的Z曲线特征能够从序列的全局角度描述序列中碱基及强氢键、弱氢键的分布情况,从而达到了从基因序列局部弯曲度及序列的双链的稳定性的角度来区分启动子序列与非启动子序列。首先提取训练集数据中的启动子及非启动子的结构特征、Z曲线特征;然后基于马氏距离构建结构特征分类器,基于Fisher准则构建Z曲线特征分类器。每个分类器由三个分类子模块组成,即启动子-外显子、启动子-内含子、启动子-3’UTR子分类模块,各分类子模块根据所属分类器的特征进行启动子预测;最后分类器将子分类模块的分类结果传递给综合评分模块进行综合评分并做出最终的判定。为了评价本文算法的预测能力,对登录号为L44140、D87675、AF017257、AFl46793、AC002368、AC002397的长基因进行了测试,测试结果为:敏感性71.92%,特异性55.56%,准确性63.47%。实验结果表明,本文算法具有更好的启动子识别性能。