论文部分内容阅读
核小体作为真核生物染色质的基本组成单位,在基因转录调控、DNA复制与修复、RNA剪接等基本生命过程中扮演着重要的角色。并且组蛋白修饰异常一些重大疾病与核小体也有着直接关联,所以研究核小体在DNA序列的定位机制具有重大意义。核小体在基因组DNA分子上的精确位置称为核小体定位。信息论是概率论和数理统计的一个分支,这里我们引进了信息熵和互信息进行我们论文的研究。信息熵是展现在总体平均意义上的特征不确定度,信息熵等于0表示此特征的出现是恒定的。互信息呈现两个变量的相关性,互信息越大表明变量的相关性越强。首先我们研究了核小体序列和连接DNA中二联体频率的差异,验证了对于这两种序列二联体的组成是有很大差异的,基于此我们利用互信息和信息熵着重研究了核小体中间隔为K的二联体的特征。通过大量的数据处理我们发现间隔为1,2的二联体的在核小体序列中特征明显,故对于已知的核小体DNA序列及连接DNA序列我们构造了32维的特征向量,应用支持向量机的评价参数及ROC曲线对模型的有效性进行验证,我们的核小体定位模型区分了五个物种Human, Medaka, Nematode, Candida和Yeast的核小体及连接DNA序列的AUC值分别为0.9237,0.9068,0.9175,0.8482和0.9079,优于以前发表的模型结果,说明了核小体定位模型的有效性。本文主要有以下几方面的成果:1.文中引入互信息和信息熵来分析间隔为K的二联体的特征,并且进行了较为充分的研究,发现了间隔为1,2的二联体在核小体序列中是具有特殊意义的。2.鉴于本文的研究结论我们构造了特征向量,其中我们的特征向量展现了序列中间隔1,2的二联体特征,并且构造简单,降低了大数据量的核小体的计算难度,提高了预测效率。3.我们运用机器学习的方法对核小体进行了定位预测,通过与前人的方法对比发现我们的方法取得了很好的效果,预测精度得到了很大的提升,从而验证了我们构造的特征向量的有效性。本文基于互信息和信息熵对核小体的分析结论构造了我们的特征向量,但是核小体定位涉及到的因素是很多的,例如ATP依赖重塑复合物,蛋白质分子的竞争与合作,DNA的序列依赖性等等,如果我们可以更加深入,系统的研究核小体定位的这些影响因素,结合多种核小体空间分布结构,DNA序列理化性质等对核小体模型进行完善,那么我们将会得到更好的定位模型。另外,物种之间的种间差异也是存在的,我们需要讲本文的方法应用到更加复杂的真核生物中并且不断进行改进和完善。目前核小体的研究尚处于探索阶段,我们需要进一步借助于实验手段验证模型的精确度。