【摘 要】
:
随着生物技术的不断发展,尤其是人类基因组计划实施以来,通过高通量基因的测序手段得到了大量生物信息数据,如何解读和挖掘这些序列信息显得日益迫切,探索出基于机器学习方法
论文部分内容阅读
随着生物技术的不断发展,尤其是人类基因组计划实施以来,通过高通量基因的测序手段得到了大量生物信息数据,如何解读和挖掘这些序列信息显得日益迫切,探索出基于机器学习方法对DNA序列的性质、属性以及功能进行分析的模型是至关重要的。本文主要研究人类基因重组位点及DNase I高敏位点(DHSs)的预测问题,工作包括以下几个方面:1)介绍了几种常用的特征提取方法,概述了近年来机器学习方法在DNA功能位点预测的研究进展,归纳了几种常用的机器学习方法,如支持向量机、随机森林、深度稀疏自编码器、隐马尔科夫模型分类法、贝叶斯分类算法等,并对分类算法的评价指标进行了系统分析。2)对人类基因序列的减数重组冷热点进行了分析和预测。基因重组对于生命过程有着重要意义,它能够交换遗传信息,促进生命的进化。本文利用三核苷酸密码子编译氨基酸来表达DNA序列全局性的顺序信息,并基于氨基酸的物理化学属性,结合二联核苷酸成分和伪氨基酸成分将DNA序列转化为DNA离散化模型,再采用SVM建立预测器,用jackknife交叉验证方法证明建立的预测器的效果比现存预测器都有较大提高。为了提高其实际应用价值,也为了方便绝大多数实验学者,我们创建了在线预测网站。3)对DNase I高敏位点进行了分析和预测。DHSs是DNA调控元件的显著标记,大多碱基修饰和调控活动都离不开DHSs富集的调控元件参与。因此分析和定位全基因组DHSs,对于分析基因的转录调控功能有着重要的意义。本文首先通过核苷酸频率分析探讨DHSs与碱基的联系。接着,分别用基于自协方差函数与互协方差函数、主成分分析法(PCA)及基于三联核苷酸的物理化学属性三种不同方法提取DNA序列特征构建分类模型,通过交叉验证测试方法证明了方法的有效性。4)最后,对本文的研究工作进行总结,并对今后的研究工作进行了展望,包括特征提取方法和分类算法的完善与改进、DNA的结构信息的提取、DNA其他功能问题的进一步分析与探讨等。
其他文献
利用人工示教等传统方法控制机械臂动作,存在着过程繁琐、成本高、效率低等许多不足,已不能满足如今工业制造领域的要求。为提高机械臂的智能化程度和易用性,同时保证机械臂可以安全平稳的工作,其运动规划和路径优化问题成为了近年来的研究重点。机械臂运动规划常用于解决机械臂在其关节空间自主避障的问题。针对其规划维度高的特点,基于采样的运动规划方法不需要对关节空间进行显式描述,而是利用碰撞检测判断障碍物信息,从而
周恩来与马歇尔使命章百家1946年既是国际关系的转折点,也是中国内部发展的转折点。马歇尔就是在这个关键时刻来华调解国共矛盾的。对历史学家来说,中美关系史上没有任何一个题目象
<正> 道德法庭里竖立着两块最大的牌子:善与恶。 什么是善?怎样算恶?它有什么具体规定?或者说,道德与不道德的最后分界在那里?标准如何定?翻开伦理思想史,你会感到惊讶;古今
创新是推动一个国家和民族向前发展的重要力量,创新人才是当今世界最重要的战略资源之一,而成为创新人才所具备的素养匮乏恰恰是困扰和阻碍高校创新人才发展的关键问题,本文
改革开放以来,我国治国理政理念先后经历了从依法治国向法治中国建设的历史变迁。尽管如此,我国国家治理现代化还是面临着境外敌对势力点对点渗透过程中所宣扬的“宪政”观点、
MIL-101(Cr)作为金属有机骨架材料(MOFs)中的一员,因其具有较大的比表面积、丰富的孔结构以及配位不饱和的金属中心等优点吸引了研究者的广泛关注。目前该材料的合成主要是在添加溶剂和HF的条件下进行的,这必然会带来废液量大,反应釜利用率低、环境不友好以及成本高等问题。因此,不添加溶剂和HF条件下MIL-101(Cr)的合成是人们所期盼的,但前期的研究发现该条件下合成的MIL-101(Cr)中
P2P借贷的熊熊烈火早在10年前就烧到了中国,但与海外同行相比,我国P2P借贷市场显得十分另类。自2007年第一家网络借贷平台拍拍贷在上海成立,在最初的几年里,国内P2P借贷行业
中药血水草(Eomecon chionantha Hance)是罂粟科(Papaveraceae)白屈菜族(Chelidonium)血水草属(Eomecon)多年生的草本植物,喜阴凉,全草入药,性苦、寒,有小毒。该植物含有丰富的生物碱
现代人群中存在着大量受达尔文正选择作用的基因,这些基因调控区的进化特点将会为人类进化、各种疾病机理等研究提供重要线索。调控序列的加速进化可以改变靶基因的表达类型,
目的:建立汉防己甲素的分离纯化工艺。方法:以汉防己甲素得率和纯度为指标,以HPLC法测定产品得率和纯度,采用正交试验设计和单因素试验优选提取纯化工艺。结果:依次采用回流