基于深度学习解析水稻增强子的调控语法

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:babyjoyce
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
解析基因表达的调控机制是生物学研究的重要问题,解决这一问题的前提和基础是对基因组中顺式调控元件(cis-regulatory elements,CREs)进行系统地鉴定和表征。顺式调控元件是基因组的重要组成部分,通过调控基因的时空表达,参与决定生物表型。顺式调控元件具有进化速率快、高度组织特异性的特点,使得其鉴定和语法解析一直比较困难。近年来,随着ENCODE、FANTOM、GTEx等大型项目的实施,人类基因组顺式调控元件的研究达到了前所未有的深度和广度,同时也揭示出诸多人类基因转录调控的语法。相比之下,目前人们对于植物顺式调控元件的了解仍十分有限,有关植物增强子的序列特征及其调控语法的知识则更加匮乏。现有的组学数据表明植物增强子和哺乳动物增强子具有不同的序列特征和表观修饰模式,这暗示动植物调控机制可能存在较大差异。水稻作为重要的粮食作物,其产量和品质关系上亿人口的温饱问题。同时,水稻也是研究最多的植物物种之一,在公共数据库积累了大量水稻基因组和表观基因组数据。因此,以水稻作为高等植物代表种,深入研究其顺式调控元件具有极其重要的意义。通过对水稻增强子进行调控语法解析,将不仅有助于我们更深刻地理解植物基因调控规律,而且还可以为水稻和其他粮食作物设计育种提供重要的基础。本研究结合水稻STARR-seq测序数据、表观修饰等数据,分析了水稻增强子DNA序列特征及其调控语法。主要研究内容和结果如下:1)基于水稻中公开发表的STARR-seq数据,利用鉴定到的增强子元件,基于基因组DNA序列构建了水稻增强子的深度学习预测模型,对模型的预测效果进行评估表明,该模型能够准确地对水稻基因组中的增强子进行预测(Accuracy:0.830±0.002)。2)通过对模型学习到的特征进行解析,发现模型第一个卷积层中52.7%(135/256)的filters捕获到的PWM可以与水稻已知的转录因子motif匹配。进一步分析表明,上述模型filters可以分成两类,其中一类代表与预测结果正相关,检查其PWM发现富含GC碱基;另一类代表与预测结果负相关,富含AT碱基。3)结合水稻的七种组蛋白修饰数据,模型第一个卷积层学习到的序列特征能够有效地表征水稻基因组的组蛋白修饰模式,基于上述序列特征对不同组蛋白修饰的预测相关性范围从0.537(±0.021)到0.760(±0.009),其中H3K4me2具有最高的修饰相关性,这暗示H3K4me2可能是水稻增强子相关的组蛋白修饰。同时基于第一个卷积层学习到的序列特征,构建XGBoost模型分类蛋白质编码启动子和nc RNA启动子,该模型准确率达到82%,这也意味着本文的模型可以在水稻基因组中发现一些潜在的通用模式。4)通过计算机饱和突变分析发现,增强子的中心区域具有最高的变异效应,同时结合phast Cons、phylo P和单核苷酸多态性数据同样发现,增强子的中心区域具有最高的保守性,这暗示中心区域可能受到较强的功能约束。综上所述,本研究通过整合水稻增强子数据、表观修饰数据以及群体多态性数据,在鉴定到的水稻增强子基础上,分析了水稻增强子的序列特征及其调控语法,同时鉴定到一批具有高变异效应的位点。上述结果对理解水稻增强子调控语法以及未来结合基因编辑技术对水稻进行精准改良有重要意义。
其他文献
毛竹(Phyllostachys edulis)是我国重要的经济竹种,但由于干旱、盐碱与低温等非生物性胁迫影响了毛竹在我国的分布与产量,对于毛竹资源的开发与利用也造成了一定的影响。超氧化物歧化酶(Superoxide dismutase,SOD)是一类能够清除植物体内活性氧的抗氧化酶,而植物SOD基因是编码植物体内超氧化物歧化酶的一类基因,具有调控植物体内超氧化物歧化酶活性的作用,在植物抵抗逆境胁
学位
中国古代乡村的优秀案例是以自然为经,以人文为纬,编织了情景交融的乡村景观之美。“景面文心”是江南传统村落风貌的基本特征——“一切景语皆情语”,美来自于身心综合体验。纵观历史,江南传统村落中人地关系的不断调整不断深化反映在乡境变化之中。人文景观看似无形无质,实际上留下了村落历史发展印记。本文结合政治、经济、文化等因素,采用“宏观—中观——微观”的逻辑思路,运用文献分析、调研归纳、图解研究等方法,开展
学位
我国是小麦的生产和消费大国。2021年,小麦播种面积0.236亿公顷,小麦产量2739亿斤。我国小麦产需平衡有余,随着居民的消费水平提高,人们对优质小麦的需求量不断增大,而小麦品质提升缓慢,导致专用优质小麦供给不足。高分子量谷蛋白亚基(HMW-GS)是小麦种子贮藏蛋白的组成部分之一,影响小麦的加工品质。我国小麦种质的HMW-GS种类多,但优质亚基出现频率较低,且含多个优质亚基的组合的品种偏少,是导
学位
西湖风景区位于浙江省杭州市的中心,它以美丽的风景和众多的历史遗迹闻名国内外。风景名胜区的植物景观是提高生态环境质量,丰富景观效果和保持城市绿化量的重要组成部分,发挥着不可或缺的作用。针对目前风景名胜区植物景观研究的不足,本文以杭州市西湖雷峰塔景区为例,选取35个样地进行分析研究,采用AHP—模糊综合评价法对雷峰塔景区植物景观进行研究,建立评价体系,并对植物多样性、植物景观结构、植物景观效应等方面进
学位
小麦作为南阳市的主要粮食作物,种植面积在800万亩以上,年总产量达325万吨以上,丰收年总产量高达500万吨,是河南粮食生产的核心主产区,为保障国家粮食安全做出了重要贡献。因此,优良的小麦品种对提高小麦产量具有重要的意义。本研究从搜集到的118份小麦材料中筛选出的15份高代品系:西农156、ME195、H44、西农865、郑麦113、HP大10、中麦586、西农685、西农876、HP品8、宛麦1
学位
我国南方地区面临着“磷限制”和日益加剧的氮沉降问题,同时该地区是我国杉木的主要分布区,尽管氮沉降或者磷添加对杉木生理状况和杉木林生态变化的研究已经有较多报道,但对杉木林土壤丛枝菌根真菌影响的研究仍较少。因此本文以10年龄杉木为研究对象,研究不同水平的氮沉降(N0:0 kg·hm-2·a-1,N30:30 kg·hm-2·a-1和N60:60 kg·hm-2·a-1)和磷添加(P0:0 mg·kg-
学位
城市老旧住区户外空间适老化改造是提升城市空间品质的必然要求。近年来,随着老龄人口比例与城市化率的双双提高,大量老龄人口在城市集聚,主要分布在改革开放初期密集建成的各类职工住宅小区里。随着时代变迁,职工住宅小区逐渐成为老旧住区,最早落户的青年职工如今都已步入晚年。城市住区的硬件设施普遍老化,常住居民的老龄化程度居高不下。城市老旧住区户外空间的适老化改造任务已经迫在眉睫。本文强调服务社区老年人的基本理
学位
风景名胜区的文化景观的历史变迁研究是风景名胜区进行合理开发和发展的重要依据。天台山风景名胜区拥有1700多年的历史,其经历发展、演化,形成了如今独有的文化景观风貌。本文在收集整理地方志书、文献丛书等史料文献以及国内外对于国家公园管理体制的相关学术论文、专著等的基础上,开展对天台山风景名胜区文化景观历史变迁的研究。主要成果如下:(1)在文献调研的基础上,汇总天台山风景名胜区的文化景观资源,梳理各个历
学位
玉米(Zea mays L.)是一种广泛种植的主要谷类作物,长期以来被认为是人类的主食。目前,世界上有94个国家的居民体能的45%是由玉米提供的。粮食不足和微量元素的缺乏对很多发展中国家居民营养健康产生了深远的影响,全球45亿人口中,仍有9亿人因玉米供应不足而产生了营养不良问题。微量元素缺乏也是发展中国家十分关注的营养健康问题。人体矿质元素的缺乏是由于食物供应不足导致的,缺乏人体所需的51种矿质元
学位
融资约束一直是中小企业在资金融通时面临的主要难题之一,而农业中小企业由于规模较小、缺乏抵押资产以及信息不对称等问题使得金融机构对其惜贷甚至不贷,融资渠道更为狭窄。随着互联网的出现,数字信息技术与普惠金融的相互结合形成了数字普惠金融,数字普惠金融以信息技术、大数据等为基础,通过减少农业中小企业与各类金融机构之间的信息不对称、降低金融机构对于抵押贷款的依赖,打破空间与时间的限制来赋能金融服务,使金融机
学位