基于深度学习的染色质开放区域及相互作用预测

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:handan0918
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
真核生物染色质的转录与复制需要特定的顺式调控元件与反式作用因子的组合调控。同时,反式作用因子只能结合在染色质折叠程度低的、无核小体区域,这部分区域被称为染色质开放区域(open chromatin region,简称OCR)或者染色质可及性区域(chromatin accessible region)。作为一个富含调控元件的重要结构特征,OCR对于理解基因组的转录调控机制具有重要的研究意义。近些年来,基于海量的生物组学数据,深度学习在基因组功能位点识别以及染色质相互作用预测等方面取得了丰硕的研究成果。然而,现有的OCR预测算法基本只基于人类或者模式动物数据,目前仍缺少可以识别与预测植物基因组OCR的计算方法。同时,相对于传统的染色质相互作用预测方法通常用于预测增强子-启动子相互作用等单一类型的互作,探究OCR间的相互作用可以不受锚定位点类型的限制,找到更多种类的互作。针对上述问题与挑战,本文基于深度学习算法,开发了两个计算工具,分别用于植物基因组OCR的识别以及人类基因组OCR间相互作用的预测。在第一项工作中,本文开发了CharPlant(Chromatin Accessible Regions for Plant),可以全基因组预测给定植物基因组中所有潜在的OCR。为此,本文设计并构建了一个新的卷积神经网络(convolutional neural network,CNN)架构,并基于四种植物(水稻、拟南芥、苜蓿和番茄)的ATAC-seq以及DNase-seq数据集训练和测试该模型。该模型同时学习了DNA序列模体(motif)特征及其调控逻辑以确定染色质的开放性。除此之外,所有的计算步骤都集成在了CharPlant工具包中,可以使用简单的命令行运行,后续的数据分析结果也证实了该方法的预测能力和计算效率。总的来说,CharPlant工具绘制了植物中OCR的全基因组分布图谱,同时可以帮助研究人员探究不同条件下OCR的转录调控机制。在第二项工作中,本文开发了CharID(Chromatin Accessible Region Interaction Detector),可以预测人类基因组中所有潜在的OCR间相互作用。为此,本文设计并构建了一个两步模型,并基于三个人类细胞系(GM12878、K562、He La-S3)的数据集训练和测试该两步模型。CharID的第一步模型名为CharID-Anchor,其基于DNA序列,利用CNN、双向门控循环单元(bidirectional-gated recurrent unit,Bi GRU)构建了基于注意力机制的杂合CNN-Bi GRU神经网络架构来学习参与互作的OCR特征,可以将序列区分为锚定位点OCR和非锚定位点OCR。后续的分析发现相比于非锚定位点OCR,锚定位点OCR包含更多有利于相互作用形成的特征。CharID的第二步模型名为CharID-Loop,其基于序列特征以及表观基因组和基因表达数据,利用梯度提升决策树(gradient boosting decision tree,GBDT)和分染色体划分数据集的策略来预测锚定位点OCR之间潜在的相互作用。通过与现有算法的比较评估发现,CharID-Anchor与CharID-Loop都有着更好的性能,同时能够预测出更多有生物学意义的染色质间相互作用。随后,本文还构建了OCR间相互作用调控网络,并基于此网络鉴定到了富含调控元件的核心节点(hub)。此外,本文还在GM12878细胞系中鉴定到了心血管疾病相关的SNP-靶基因相互作用,并揭示了相关SNP影响GFOD1基因表达的潜在调控机制。为了进一步拓展CharID的可用性,本文开发了一个便于使用的网络服务Peaksniffer,用户可以在线预测、检索以及可视化OCR间相互作用。总的来说,相比于现有算法和实验检测手段,CharID能够不限制锚定位点类型地识别出更多种类的相互作用。综上所述,本文利用深度学习相关方法,针对OCR开发了两个计算工具CharPlant和CharID,在全基因组范围内对于OCR的一维功能位点解析及其在三维空间上参与的互作进行了深入的研究与分析,为OCR及其相关调控机制的解读提供新的视角与见解。
其他文献
近年来,茶叶与天然花草果跨界组合利用迅猛发展,创制的新型复合茶具有更加多元化的风味品质特征,特别是柑橘复合茶类因兼具茶与柑橘的特征风味,已成为全世界消费量最大的复合茶。茶枝柑(Citrus reticulata Blanco‘Chachiensis’)是我国生产传统中药广陈皮的道地柑橘品种,干皮香气浓郁,滋味醇厚。茶枝柑与传统茶叶进行复合拼配能够显著提升茶叶风味品质。在我国广东、福建地区通常将茶枝
学位
我国自2000年正式步入老龄社会以来,人口老龄化速度越来越快。2021年我国65岁及以上人口2.01亿人,占总人口的14.2%,已正式进入深度老龄社会。老龄化程度加深的同时,我国养老体系的负担逐渐增加,单独依靠基本养老保险已难以达到老年生活预期。为了积极应对人口老龄化、减轻居民养老经济压力,2006年以来,国务院、证监会、银保监会等部门密集出台了鼓励居民进行养老资产储备的各项政策。2019年《国家
学位
杨树(Populus spp.)是一种速生林木树种,广泛用于木材、纸浆和造纸,具有作为生物质能源的潜力。它们在防止水土流失和水土流失、调节气候、保持生态稳定方面发挥着非常重要的作用。它是一个种类繁多且分布广泛的属,并已广泛传播。其中许多生长在干旱和半干旱环境中的物种长期处于缺水状态。当植物受到干旱胁迫时,会在分子、生理和解剖学水平同时发生大量变化,这些变化能够增强植物在干旱期间的生存和生长能力。本
学位
快速的人口增长和不断变化的消费偏好使水稻成为科特迪瓦粮食安全的战略作物。除了提供食物外,水稻生产活动还为在水稻价值链中的农村家庭创造了可靠的就业机会和收入,从而改善他们的生活。然而,在科特迪瓦,水稻供应并没有跟上需求的步伐。水稻产量低于国内的消费需求。2007-2008年全球粮食危机造成的经济影响和社会动荡表明了在国家经济和家庭食物篮中的重要性。这场粮食危机给我们敲响了警钟,要求制定紧急政策以确保
学位
近年来,淡水生态系统遭受着生物多样性下降和生态系统功能衰减的威胁。研究表明农药是对淡水生态系统破坏最为严重的污染物之一,其对淡水生物群落的危害在国际环境科学领域受到极大关注。淡水生态系统中,区域内高风险农药的筛选和识别仍然缺乏有效的方法,自然条件下农药污染对水生生物种群水平危害的相关研究鲜有报道。本课题组先前的研究发现,2020年夏季梁子湖中的农药污染可能是导致浮游动物群落丰度下降的原因。因此,本
学位
茉莉酸(JA,jasmonate acid)促进块茎起始和膨大进而影响影响块茎形成;此外,茉莉酸在热胁迫和干旱胁迫下的调控作用在不同作物中均有报道。然而,JA在马铃薯块茎发育和株型调控中的信号动态和潜在功能、以及在高温和干旱胁迫下的反应仍不清楚。本研究通过过表达茉莉酸信号转导核心负调控因子St JAZ1-like基因,阐明了马铃薯块茎发育过程中JA信号的时空动态、生理和分子调控网络,以及JA信号参
学位
目前的研究显示硬骨鱼类的干扰素(interferon,IFN)包括Ⅰ型、Ⅱ型和Ⅳ型IFN,其中Ⅰ型IFN可分为三组(group),并进一步分为七个亚组(subgroup),IFNa、IFNd、IFNe和IFNh为第一组,IFNb和IFNc为第二组,IFNf为第三组,而鱼类的Ⅱ型IFN则有两个成员,IFN-γ和IFN-γrel。本研究在乌鳢中鉴定了 4个Ⅰ型IFN基因,分别为IFNc、IFNd1、I
学位
硬骨鱼类作为终身生活在水体中较为原始的脊椎动物,在数以亿年计的时间里逐渐演化出一套完整有效的免疫系统来防御不同水生病原的入侵。B细胞作为硬骨鱼类获得性免疫中的主要效应细胞,其分泌的抗体可以靶向病原分子来促进机体对病原菌的清除。然而,现有研究主要将硬骨鱼类B细胞作为抗体分泌细胞(antibody-secreting cell,ASC)这一整体类型,很少深入研究硬骨鱼类B细胞不同亚群的表型和功能,而对
学位
基于光催化的高级氧化技术可以直接利用太阳光的能量,诱导产生种类众多、数量庞大的活性氧物种(ROS)参与有机污染物降解,被认为是环境污染控制和食品安全保障方面极具潜力的技术手段之一。实现ROS的光化学诱导增强和精准调控对促进有机污染物的高效降解意义重大。虽然众多研究者在ROS光催化调控和相关机理研究方面做出了大量的工作,但目前ROS光催化产生效率依然有待提高。此外,光催化诱导ROS的产生往往是多途径
学位
近年来研究发现,母本染色质和父本染色质在某些基因组位置上表现出差异,然而这种结构上的等位效应与等位基因表达之间的关系尚不明确。将体细胞核移入去核卵母细胞,体细胞经过重编程(Reprogramming)恢复到全能性状态,并且最终发育为新个体的技术称为体细胞核移植技术(Somatic Cell Nuclear Transfer,SCNT)。然而在体细胞核移植重编程中染色质高阶结构及其等位效应所发挥的作
学位