变分图自编码器算法应用于基因-表型关联预测研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:snoopy_cp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因改变导致的表型异常涉及分子、通路、网络、细胞与器官等多个层次,了解基因-表型关联对疾病的预防、诊断和治疗具有重要意义。然而,由于表型研究的复杂性,实验方法检测基因-表型关联往往耗时长、成本高,目前的数据库中只有小部分人类蛋白编码基因具有表型注释。人们发展了一系列计算方法预测基因-表型关联,但相关预测算法均建立在蛋白质特征提取基础之上,预测准确性与完整性有待提升。为提升基因-表型关联的预测效率,本文利用变分图自编码器开展了以下方法学研究。首先,本文研发了一种基于变分图自编码器的基因-表型关联预测模型Graph Pheno。Graph Pheno不需要特征工程来捕获蛋白质序列的深层特征,而是直接整合序列与相互作用等两类蛋白质最基本的属性发现人类基因与异常表型之间的关联。通过五倍交叉验证和独立测试集对Graph Pheno模型的预测效率进行了评估,3741种表型预测的平均AUC值分别为0.768及0.622,这说明Graph Pheno模型具有良好的预测效果,且具有一定的发现新基因-表型关系的能力。然后,本文利用Graph Pheno模型对人类全部基因相关的表型做了预测,并考察了预测结果的生物信息特征。基于18,155个人类蛋白质的序列及相互作用信息,本文通过图卷积获取了每个蛋白质低维稠密的嵌入向量,进一步将嵌入向量用于深度学习模型,得到了18,155个人类蛋白质与4369种表型之间的21,114,059对潜在的关联关系。对预测结果的生物信息分析表明,同一表型关联的已知与预测基因之间倾向于具有较高的序列相似性,较高的功能相似性,较高的发生相互作用的概率,在人体53个组织上表现出较强的基因表达相关性。这些结果从多个角度说明了预测结果的可靠性。最后,本文将Graph Pheno模型应用于“线粒体呼吸链活性下降”表型相关基因的预测研究。本文发现预测的“线粒体呼吸链活性下降”相关基因参与了线粒体内膜、线粒体蛋白复合物、呼吸电子传递链等线粒体相关的生物学过程,在氧化磷酸化、产热和一些神经退行性疾病(如帕金森病、亨廷顿病和阿尔茨海默病)进程中起重要作用。通过对神经退行性疾病的临床样本进行差异基因表达分析,本文还发现预测的大部分“线粒体呼吸链活性下降”相关基因在神经退行性疾病中表达显著下调。通过上述研究,本文发现了一些新的与“线粒体呼吸链活性下降”相关的基因,有望为实验人员研究线粒体代谢异常提供理论指导,为相关疾病临床诊断与治疗提供新的思路。
其他文献
笨蝗Haplotropis brunneriana及其近缘种隶属于直翅目Orthoptera蝗总科Acridoidea癞蝗科Pamphagidae癞蝗亚科Pamphaginae笨蝗族Haplotropidini,是粮食作物和其他经济作物的害虫之一。笨蝗及其近缘属种的形态特征非常相近,物种界定在国内国外学者的研究中存在较大争议,鉴定特征标准未达成统一。传统分类学多依据形态特征的定性分析进行物种的划分
学位
繁殖是鸟类生活史的重要组成部分,包括占区、求偶、筑巢、产卵、孵卵和育雏等不同的阶段,对鸟类繁殖生物学的研究不仅能够补充鸟类生活史资料,亦有助于更好地了解鸟类生活史策略的进化。鸟类的鸣声是重要的通讯方式,鸣声包括鸣叫和鸣唱,鸣叫是鸟类全年都会发出的鸣声,而鸣唱多是由繁殖期的雄鸟发出的鸣声。雄鸟发出鸣声的频次与占区、维持配偶关系等繁殖活动密切相关,同时鸣声也是鸣禽在繁殖季重要的领地防御方式。本研究以河
学位
保定和石家庄地区的环境空气质量具有明显的季节变化特征,秋冬季节雾霾严重,春夏季节明显好转,其大气元素沉降问题在冬季取暖期尤为严重。本研究以中国树花(Ramalina sinensis)为大气元素沉降监测生物,采用地衣移植法,将清洁区的该地衣于冬季取暖期移植入保定和石家庄的3个生态区(城区、郊区和山区),比较分析移植前后地衣中55种金属/类金属元素(Ag、Al、As、B、Ba、Be、Bi、Ca、Cd
学位
本研究首先利用Biolog技术对微藻进行了有机物利用能力的高通量测定,然后检测多种微藻对苯酚和氯霉素的耐受性和降解作用,筛选出具有高耐受性和高降解率的优势藻种。主要研究结果如下:1.通过分析Biolog-ECO孔显色度的变化发现空星藻和蹄形藻可降解21种有机底物,微芒藻可降解23种有机底物;空星藻可降解的有机物集中在胺类和氨基酸类,微芒藻可降解的有机物集中在胺类,蹄形藻可降解的有机物集中在糖类;B
学位
氧氟沙星(Ofloxacin,OFL)属于第3代氟喹诺酮类抗生素,广泛应用于人类疾病治疗、畜牧、水产等行业。OFL分子结构稳定、环境赋存量高,甚至会通过食物链传递富集,对生物体造成潜在危害,但其毒理机制尚未得到深入了解。因此,本文以毒理学模式生物大型溞(Daphnia magna)为受试种,研究了OFL产生的毒性效应和内在机制,重点关注OFL对大型溞的生长繁殖、运动行为、肠道损伤和氧化应激等方面的
学位
秦岭山脉地理位置特殊,是研究中国动植物特征、起源、演化的关键地区。为摸清秦岭山脉西段地表甲虫的物种本底,了解不同环境条件下地表甲虫的变化规律及受胁情况,本研究采用陷阱诱集法,随机选取15个10 km×10 km样区,在不同生境下布置样方,调查样方内的地表甲虫,并测定14个环境因子。基于物种调查结果,对α多样性指数和β多样性组分进行趋势分析。利用指示值法筛选不同生境下的指示种,找出不同生境下影响地表
学位
氧气是地球大气的重要组分,维持多数生物的生命活动。随着全球气候变暖,大气氧分压逐年降低;这将对有氧生物(如昆虫)造成严重威胁。因此,生物的低氧适应对其生存繁衍显得尤为重要。昆虫是地球上种类最多的生物,主要通过发达的气管系统进行氧气运输;但是,没有成熟气管系统的昆虫胚胎如何运输氧气?本课题组前期研究发现,不完全变态昆虫(如飞蝗)胚胎含有一种呼吸蛋白(即血蓝蛋白),该蛋白具有氧结合特性,能够运输和储存
学位
青藏高原是地球上海拔最高的地区,也是亚洲10大河流的发源地。青藏高原地质历史和特殊的地貌、气候和环境历史,孕育了青藏高原独特的鱼类资源。墨脱和察隅地区位于西藏自治区东南部,地处雅鲁藏布江下游。较低分纬度、丰富的降雨、巨大的海拔差异孕育和支撑了极高的生物多样性以及极具特色的动植物区系。鮡科(Sisoridae),隶属于硬骨鱼纲(Osteichthyes)、辐鳍亚纲(Actinopterygii)、鲇
学位
真菌在低温生态系统中分布极为广泛,并且在生物技术应用等方面存在着巨大潜力。我国拥有丰富的冰川资源,主要分布在青藏高原地区。冰川类型可分为大陆性冰川和海洋性冰川,其中海洋性冰川蕴藏着大量的低温真菌,对于该地区真菌资源的调查不仅能够丰富真菌的多样性,还为其适冷机制的探索和新型次级代谢产物的开发奠定了基础。本研究从我国云南省的白马雪山、玉龙雪山和明永冰川,四川省的达古冰川、海螺沟冰川、燕子沟冰川和九寨沟
学位
苦伪蝎科Chernetidae隶属于节肢动物门Arthropoda蛛形纲Arachnida伪蝎目Pseudoscorpiones有毒亚目Iocheirata螯伪蝎总科Cheliferoidea,分布范围广泛,全世界共记述118属680余种(其中包含1化石属Mayachernes Riquelme,2014),是伪蝎目的第一大科,拥有伪蝎目中最高的多样性。在本研究开始之前,中国仅记述苦伪蝎11属19
学位