生物医学域的本体表示方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:qween
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来高通量生物学技术的提高,生物医学研究愈发依赖于可计算性知识。基因本体论作为一种系统地对物种基因及其产物属性进行注释的方法和过程,是当前描述基因功能及其产物功能最全面的可计算知识资源库。基因本体论注释常用来解释大规模的分子生物学实验,例如基因产物的作用、变异等,这些组学实验都与基因本体所注释的基因功能密切相关。本文面向生物医学领域,基于基因本体论提出一种结合Sentence-ou Bio BERT语义表示模型与多尺度图对比学习表示方法(MERIT)的基因本体联合表征方法,以获取更准确的基因本体表示并在生物医学实验中加以运用。首先,构建了自监督基因本体表示学习模型MERIT-Bio BERT,基于基因本体中术语名称、定义及术语间关系,学习基因本体的表示。针对术语语义表示中,标准BERT模型对生物医学领域专业词汇语义表示不佳,以及BERT词向量表示计算量过大的问题,通过使用基于Transformer的顺序去噪自动编码器微调的Sentence-ou Bio BERT模型将基因本体术语的名称和定义编码为句向量,从而有效提高语义表示准确度;针对本体图结构信息的表示缺失,通过基于孪生网络的MERIT方法捕获基因本体图中节点关系等信息。最终提出了结合预训练Sentence-ou Bio BERT模型与图对比学习MERIT方法的基因本体联合表征方法MERIT-Bio BERT。本文在一组蛋白质家族相似度以及蛋白质-蛋白质相互作用的基准数据集上,以MERIT-Bio BERT方法表示的基因本体注释蛋白质,并计算蛋白质语义相似度,从而对基因本体表示方法的有效性进行验证。对线粒体蛋白质分类进行预测。为验证本文所提基因本体表示方法的有效性,本文提出了线粒体蛋白质分类预测模型,该模型融合了蛋白质氨基酸序列以及基因本体注释信息,从这两个角度出发对蛋白质进行表示,然后构建深度学习神经网络对线粒体蛋白质分类进行有监督的学习。本文在基于哺乳动物线粒体蛋白质数据集Mito Carta3.0中人类线粒体蛋白质建立的二分类数据集和亚线粒体定位多分类数据集上评估了模型的预测性能。二分类实验使用AUC作为评价指标,所提模型在线粒体蛋白质平衡数据集上使用细胞组分(CC)及生物过程类(BP)基因本体注释结果分别达到0.967和0.913,具有较强的线粒体蛋白质预测能力。
其他文献
随着电子产品小型化及数字化的发展,高温翘曲问题日益严重,因此对电子浆料性能的要求也越来越高。电子浆料是部件封装和互连的关键材料,市场上多用银浆,但成本高,易发生银的电迁移,所以选择铜对其进行部分功能的替代。铜导电优良,成本低,但易氧化,限制了其应用范围。银包铜粉既解决了银易电迁移的问题,又能提高铜的抗氧化性能。尽管目前化学镀法合成银包铜粉的工艺较为成熟,但还存在银包铜粉抗氧化性能不足的问题,本论文
学位
目的:检索、评价和总结血液透析病人自体动静脉内瘘自我管理的证据,为临床实践提供循证证据。方法:系统检索国内外指南网站、中英文数据库和专业协会网站中与血液透析病人自体动静脉内瘘自我管理内容相关的文献,检索时限为建库至2023年1月5日,由2~4名研究者对纳入文献进行质量评价、证据提取和汇总。结果:共纳入10篇文献,包括临床决策3篇、指南3篇、系统评价2篇、专家共识2篇,最终总结出包括健康教育、动静脉
期刊
背景和目的肝内胆管结石(Hepatolithiasis)是一种易复发的胆道良性疾病,肝内胆管结石患者可以出现不同程度的胆管炎,诸如右侧腹痛、发热,甚至黄疸,部分并发肝脓肿、胆汁性肝硬化、门静脉高压症,晚期可发生胆管癌,很多患者需要进行多次手术治疗,严重影响患者的生活质量,加剧患者及其家属的经济负担。对于复发性肝内胆管结石再手术的疗效及其术后的生活质量的准确评估有助于指导临床个体化治疗方案的制定,传
学位
随着人们对个人健康监测和各种电子传感器的兴趣日益浓厚,柔性电子技术受到了极大的关注。柔性电子设备的主要供电方式是电池。然而,相比尺寸日渐缩小的电子设备和传感器,电池显得很笨重,并且需要频繁地更换,对柔性电子设备的轻便型和功能性产生了限制。因此,自供电设备有广泛的应用前景。对于可穿戴柔性电子设备而言,人体自身的热量是源源不断、取之不尽的能量,热电材料可以实现将热能转化为电能,因此本文对可穿戴柔性热电
学位
<正>教学内容:人教版数学六年级上册第一单元分数乘法第一课时“分数乘整数”。教学过程:一、课前热身,旧知铺垫1.同学们,今天我们要学习新知识了。看,你们都长大了一岁,个个精气神充足,老师非常高兴。我有几个小问题想考一下大家过去学的知识,看看这些知识有没有随时间的流逝而忘记?
期刊
研究背景:烟雾病是一组以颈内动脉及其近端分支进行性狭窄或闭塞,随后代偿增生形成脑底异常血管网为特征的脑血管疾病。临床上除了更容易发生短暂性脑缺血发作、脑梗死、脑出血、癫痫等症状外,还可能表现出多个领域的认知功能障碍。其中,跨期决策能力是高级社会认知的组成部分,是需要在考虑时间成本、权衡收益后进行的选择,在精神疾病领域多有报道。有研究发现烟雾病患者多合并有基础认知功能障碍,突出表现在执行功能方面,但
学位
目的:分析免疫检查点抑制剂(ICIs)联合抗血管生成药物治疗Her-2阴性晚期胃和胃-食管结合部癌(GC/GEJC)患者的疗效及安全性,同时分析双药联合化疗治疗Her-2阴性晚期GC/GEJC患者的疗效及安全性,对比两种不同治疗方案在疗效及安全性方面的差异。方法:回顾性收集安徽医科大学第一附属医院普外科及肿瘤内科2019年10月至2021年9月收治40例的晚期Her-2阴性GC/GEJC患者临床资
学位
研究背景:肝移植目前已成为肝脏失代偿期患者的标准治疗方法,但其术后胆道并发症(biliary complications,BC)的发生却是导致受体生存时间减少及生存质量下降的重要影响因素。早期研究报道BC发生率高达50%,随着器官保存技术、免疫抑制剂的发展及手术技术的不断进步,目前肝移植术后BC的发病率已下降至5%~25%,但由于其治疗复杂、病死率高,因此也被业内学者称为肝移植术的“阿喀琉斯之踵”
学位
学术发表和交流经历了一个重大的变革期,其中一个革故鼎新的变化就是开放获取运动的出现。开放获取实际上是学者和机构出于现行传统订阅制下的期刊出版模式的强烈不满而提出的。研究机构和出版机构的矛盾集中在以下几点:1)日益高涨的订阅费;2)版权之争;3)学术成果窃取;4)对学术交流的延迟影响。于是,预印本平台孕育而生,它是互联网时代开放获取最主要的形式。但是,目前这些预印本平台是从业务管理到数据管理仍然是中
学位
固体氧化物燃料电池(solid oxide fuel cell,SOFC)由于其高效率、低污染等优点被认为是未来将会得到广泛应用的能量转换装置。但是,SOFC的使用寿命短是限制其广泛应用的一个巨大障碍,电池的力学性能是其中一个方面的原因,高温运行下热膨胀系数失配导致的热应力和装配过程产生的残余应力都会导致SOFC内部断裂而失效。本论文主要探索在不连续问题模拟上有巨大优势的近场动力学(peridyn
学位