基于SMRT-seq和机器学习的DNA 6mA检测方法研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:xuzhonghai01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNAN6-甲基脱氧腺苷(DNA6mA)是原核生物中最为普遍的一种DNA甲基化修饰,是限制修饰系统重要组成部分,可协助摧毁外来的入侵DNA。随着测序技术发展,多种方法被应用于真核和原核生物基因组中DNA 6mA事件的检测,陆续有研究表明多种真核生物基因组中也存在丰富的DNA6mA甲基化修饰。目前,第三代单分子实时测序技术(SMRT-seq)可以在单核苷酸分辨率上检测到DNA6mA,运用该技术已解码2000多种细菌的表观组,并揭示了 DNA 6mA在细菌中基因表达调控功能。受相邻碱基中其他DNA甲基化修饰的影响,SMRT-seq检测DNA6mA时会产生假阳性,大多细菌基因组中DNA6mA丰度很高,少量的假阳性位点对后续结果影响不大,而真核生物基因组中DNA 6mA含量很低易湮没在假阳性位点中,需要针对性的技术降低检测假阳性。房刚等人利用天然样本与全基因组扩增(WGA)样本对照分析,有效减少了 DNA6mA错误位点,但WGA测序致使费用成倍增长。本文围绕DNA 6mA的检测识别,提出了一种基于SMRT-seq和机器学习的DNA 6mA预测方法,通过大量实验系统分析了特征构建、分类算法和检测原理对方法效率的影响。主要研究内容如下:1、简单介绍了 DNA6mA的研究背景、意义及其功能,比较分析了各种DNA6mA检测方法,为本文后续研究提供了理论基础。2、设计了两类SMRT-seq的特征提取方法。根据Pacific Biosciences三代测序原理,选取IPD作为评价指标检测DNA 6mA,一方面借助SMRT-seq流程结果,整合上下文信息后,通过递归消除法获得SMRT-seq的综合位点特征。另一方面,从原始测序数据入手,整理所有位置的IPD数据,利用递归消除降维处理,获取SMRT-seq的单分子层级特征。3、详细介绍与比较了六类机器学习算法。介绍了逻辑回归、线性判别分析、支持向量机等6种分类算法,比较他们在莱茵衣藻数据集的表现。对于SMRT-seq的综合位点特征,逻辑回归、K近邻和决策树的表现较好,准确率约为97%;而朴素贝叶斯的假阳性较低,为6.4%;线性判别分析不够灵敏,召回率为84.4%,其它几种算法都在85%~90%之间。对于SMRT-seq单分子层级特征,支持向量机表现较好,准确率为71%,召回率高达99%。4、提出了一种基于SMRT-seq和机器学习的DNA 6mA检测方法。根据Pacific Biosciences测序数据,整合上下文信息后,通过递归消除法获得SMRT-seq的综合位点特征和单分子层级特征,结合支持向量机(SVM),构建了 DNA6mA检测模型,并应用于莱茵衣藻和六种细菌。结果发现,95%以上被检测的莱茵衣藻的DNA6mA都落在motif和由MeDIP-seq检测所得DNA 6mA峰区域;与SMRT-seq相比,本文检测六种细菌的DNA 6mA,落在由MeDIP-seq检测DNA6mA峰区域的比例提升了2%至70%不等。可以证明,本文提出的基于SMRT-seq和支持向量机的DNA 6mA检测方法,提高了 DNA 6mA检测精度,有效降低了 DNA6mA的假阳性。
其他文献
以抖音为代表的短视频兴起之后,社会上对其评价褒贬不一。为了弄清大学生群体对抖音等短视频的认知偏好和使用情况,本文采用问卷调查的方式,以南京大学生为对象,展开了一次调查研究。在调查与分析之前,对认知和使用的相关理论进行了梳理和总结,以此为基础得出研究路径,并对相应的研究对象进行分析,为调查研究做好准备工作。根据调查得到的数据,采用SPSS数据分析软件进行科学处理和分析,发现南京大学生对于抖音这类短视
近年来,随着工农业和环保等领域的快速发展,化学传感器在环境的保护和监控、疾病的预防和控制等领域应用广泛。化学传感器可通过化学反应对某种分析物产生响应,从而达到对分
纪检监察机关是党内纪律部队,是党和人民维护国家政权、捍卫民族复兴的利剑。习近平总书记在中央纪委五次全会上提出,努力建设一支政治素质高、忠诚干净担当、专业化能力强、
目的:观察温针灸治疗中风后尿潴留的临床疗效,为温针灸治疗中风后尿潴留提供临床依据,为临床治疗提供优选方案。方法:将从广东省第二中医院针灸康复科住院部收集的60例符合条件的中风后尿潴留的患者按照随机对照,采用随机方法分为试验组(温针灸)和对照组(电针组)各30例。两组均根据中风病诊疗规范予以一般基础药物治疗、中风病基本体针治疗、留置尿管、中风病康复训练。两组患者每天治疗1次,1周6天,休息1天,为1
面对日益严重的环境污染和能源短缺等问题,寻找绿色的可再生能源来替代化石燃料是面临的迫切任务。氢气作为推动未来世界经济发展的重要能源载体,具有很高的能量密度,且无碳排放。电催化水分解作为一种可持续的产氢技术,对未来氢经济的发展至关重要。然而,电解水是一种能量上坡的化学过程,其缓慢的反应动力学严重影响了析氧(OER)和析氢(HER)两个半反应的效率。目前,贵金属(如Pt/C、Ir O_2、Ru O_2
超级电容器是集多重优势于一身的新储能装置,具体表现为:成本投入较低、安全性高、使用周期长等,因此在诸多领域实现了规模化普及与应用。然而,目前超级电容器的电极主要以碳材料过渡金属氧化物材料为主,其理论比电容低、稳定性差,无法满足新能源存储需求。因此,开发存储能量高、循环稳定性好的活性电极材料成为了研究者们争相探讨的课题。二硫化钼(MoS_2)是一种高性能过渡金属硫化物,有独特的物理化学性质,其含有基
随着物联网、电子商务和社会化网络在全世界范围内的快速普及,全世界数据的储量呈爆发式地增长,世界正在向数字化世界转变。数据挖掘就是研究如何有效地将这些看似毫无关系的海量数据中隐含的、新颖的、能被人们理解并且加以利用的知识提取出来的一门综合学科。聚类作为构成数据挖掘的重要部分,它是将没有附加任何簇标签的数据集分割成几个子集,使得每个子集内分配的数据对象更加相像,其中任何子集间分配的数据对象之间区别更大
语言测试的反拨效应指语言测试对语言教和学产生的影响。HSK三级考试是吉国汉语学习者高度关注的外语测试。本文研究的目的是通过调查HSK三级考试对吉国学生产生的实际反拨效应,寻找方法有效利用积极反拨效应以求进一步促进吉国当地孔院的汉语教学。本文借鉴国内外反拨效应研究成果,以吉尔吉斯斯坦2018年至2019年之间参加HSK三级考试的106名汉语学习者为研究对象,运用问卷调查和访谈的研究方法收集实证数据。
目的对比分析食管癌患者与非食管癌患者中的RgpA/B基因,筛选出食管癌患者中的优势菌株进行克隆、表达;同时运用杂交瘤技术制备单克隆抗体,为进一步研制用于临床检测和诊断P.gingivalis感染的试剂盒提供物质基础。方法(1)RgpA/B基因型在食管癌患者和非食管癌患者中的差异:收集74例食管癌患者和135例非食管癌患者口腔牙龈标本,经PCR扩增RgpA/B基因并测序,统计RgpA/B基因在两组人
国家电网公司三集五大改革以来,加强了核心资源的管控,实现了人、财、物的集中。地市供电公司的施工企业更贴合于地方工作实际工作效率高,存在的意义重大。人力资源处在生产资料的底端,是企业生存的基本生产要素,是一切生产作业的启动要素,人力资源能够集中体现企业的综合实力和竞争力。特别对地市公司下属施工企业来说,一套完善的人资源规划方案及其重要。探索一个合理符合实际的人力资源规划是一个重大课题,对同类型的所有