基于序列特征的核小体定位

来源 :山东大学 | 被引量 : 0次 | 上传用户:ytxiaokang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
核小体作为真核生物染色质的基本组成单位,在基因转录调控、DNA复制与修复、RNA剪接等基本生命过程中扮演着重要的角色。并且组蛋白修饰异常一些重大疾病与核小体也有着直接关联,所以研究核小体在DNA序列的定位机制具有重大意义。核小体在基因组DNA分子上的精确位置称为核小体定位。信息论是概率论和数理统计的一个分支,这里我们引进了信息熵和互信息进行我们论文的研究。信息熵是展现在总体平均意义上的特征不确定度,信息熵等于0表示此特征的出现是恒定的。互信息呈现两个变量的相关性,互信息越大表明变量的相关性越强。首先我们研究了核小体序列和连接DNA中二联体频率的差异,验证了对于这两种序列二联体的组成是有很大差异的,基于此我们利用互信息和信息熵着重研究了核小体中间隔为K的二联体的特征。通过大量的数据处理我们发现间隔为1,2的二联体的在核小体序列中特征明显,故对于已知的核小体DNA序列及连接DNA序列我们构造了32维的特征向量,应用支持向量机的评价参数及ROC曲线对模型的有效性进行验证,我们的核小体定位模型区分了五个物种Human, Medaka, Nematode, Candida和Yeast的核小体及连接DNA序列的AUC值分别为0.9237,0.9068,0.9175,0.8482和0.9079,优于以前发表的模型结果,说明了核小体定位模型的有效性。本文主要有以下几方面的成果:1.文中引入互信息和信息熵来分析间隔为K的二联体的特征,并且进行了较为充分的研究,发现了间隔为1,2的二联体在核小体序列中是具有特殊意义的。2.鉴于本文的研究结论我们构造了特征向量,其中我们的特征向量展现了序列中间隔1,2的二联体特征,并且构造简单,降低了大数据量的核小体的计算难度,提高了预测效率。3.我们运用机器学习的方法对核小体进行了定位预测,通过与前人的方法对比发现我们的方法取得了很好的效果,预测精度得到了很大的提升,从而验证了我们构造的特征向量的有效性。本文基于互信息和信息熵对核小体的分析结论构造了我们的特征向量,但是核小体定位涉及到的因素是很多的,例如ATP依赖重塑复合物,蛋白质分子的竞争与合作,DNA的序列依赖性等等,如果我们可以更加深入,系统的研究核小体定位的这些影响因素,结合多种核小体空间分布结构,DNA序列理化性质等对核小体模型进行完善,那么我们将会得到更好的定位模型。另外,物种之间的种间差异也是存在的,我们需要讲本文的方法应用到更加复杂的真核生物中并且不断进行改进和完善。目前核小体的研究尚处于探索阶段,我们需要进一步借助于实验手段验证模型的精确度。
其他文献
目的探讨控制高血压饮食模式(DASH)对正常高值或1级高血压人群血尿酸(SUA)的影响。方法63例参试者分为DASH膳食指导干预(n=28)和继续对照饮食(n=35)。问卷调查参试者膳食结构
锥形束断层成像CBCT(Cone-Beam Computerized Tomography),使用锥形束X射线对物体进行照射,得到投影数据,再通过特定的重建算法,便可重建出物体的内部结构。然而过多的射线辐
<正>所谓创新教育就是使整个教育过程被赋予人类创新活动的特征,并以此为教育基础,达到培养创新人才和实现人的全面发展为目的的教育.高中化学立足于九年义务教育的基础,注意
在现代有机合成中,脂肪族C-H键的硝基化反应是一类具有挑战性的课题,尤其是羰基化合物α-位的C(sp~3)-H键的硝基化反应。我们以廉价易得的铜盐作为添加剂,以硝酸铈铵为硝基化
随着中国综合实力日益提升,越来越多的人开始走近中国,了解中国文化。第四届中俄博览会期间,黑龙江旅游职业技术学院为独联体国家参访团召开民俗文化讲座,笔者有幸承担了该讲
铋系半导体材料作为新型可见光催化剂,因其具有较窄的禁带宽度以及良好的可见光吸收活性的等优点而被广泛的研究。本文以黄铁矿为前驱体,利用水热-煅烧法制备了一系列的黄铁
电梯作为一种由机械构成的运输设备,在为出行提供便利的同时,也存在着一定的安全问题,目前这些问题已被人们所重视。电梯制动器作为电梯组成的重要部件,其功能失效会带来很多
意大利人文主义者对文艺复兴思想的传播和欧洲文化的发展起到了极其重要的推动作用。文艺复兴运动诱发了宗教改革,在音乐上,开创了以人和自然为主体的现实主义创作手法,形成了以
箱形梁桥式起重机的主梁优化设计效果显著,尤其是在减轻主梁自身重量方面。然而,在实际工程的优化设计中,理论方案应用普遍性不高。本文通过对箱形梁桥式起重机主梁的结构分
应用需求的日益增长促进高性能计算机迅速发展,随着系统规模日益增大,高性能计算机组件数量迅速增加,系统的平均无故障时间越来越短,可靠性问题日益突出。原有的基于Checkpoi