基于深度学习的中文生物医学文本信息抽取

来源 :大连理工大学 | 被引量 : 4次 | 上传用户：yohoban

【摘要】

：

由于生物医学领域与人们的健康密切相关,因此生物医学领域备受关注,与此同时,相关的生物医学领域文献也呈现指数增长的态势。这些文献蕴含着海量的领域知识,是相关研究人员的

【作者】

：

丁泽源

【出处】

：

大连理工大学

【发表日期】

：

2020年01期

【关键词】

：

实体识别短文本分类关系抽取预训练语言模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

由于生物医学领域与人们的健康密切相关,因此生物医学领域备受关注,与此同时,相关的生物医学领域文献也呈现指数增长的态势。这些文献蕴含着海量的领域知识,是相关研究人员的宝贵资源。然而由于文献数量巨大,从文献中手工抽取知识,耗费大量的时间与精力,且很难满足相关研究者对于提取文献知识的需求,因此生物医学领域的文本挖掘技术应运而生。生物医学实体识别任务是文本挖掘的基础任务之一。本文首先基于公开的英文语料,结合翻译技术与人工标注的方法构建中文生物医学语料。接着基于大量的生物医学文献训练笔画ELMo,将笔画信息建模,充分的结合中文特有的特征,最后搭建基于笔画ELMo+BILSTM+CRF的模型完成实体识别任务。该模型可以解决一词多义的问题和蛋白质识别效果不好的问题。在生物医学领域中,临床试验筛选标准短文本分类是构建辅助医疗诊断系统的重要步骤之一,具有很高的应用前景和医学临床价值。本文针对这项任务,提出一种基于BERT融合多特征的神经网络集成模型。在预训练语言模型方面,本文使用继续训练与逐层解冻等精调技术,在训练模型方面,本文使用伪标签和五折交叉训练等技术,在特征表示方面,本文设计一系列可以提高短文本分类效果的通用特征,可以很好的缓解短文本信息不足的问题。相比于其他各种基于BERT的模型,本文提出的模型可以取得更高的精度。在生物信息抽取领域,关系抽取具有重要的意义。本文基于生物医学语料,构建基于注意力机制的BILSTM和多粒度Lattice的集成模型,该模型可以将词级别的信息整合到字符序列中,从而避免分词错误的影响,通过引入外部语言知识库,避免中文歧义的问题,最后通过融入一系列的中文特有的特征进一步改善模型的结果。实验结果表明,该模型可以很好的抽取实体间的关系。

其他文献

高质互联,转型融合——“互联网+”新业态下体育产业升级发展路径探究

"以互联网+"技术推动体育产业转型升级,可以将"互联网+"理解为手段,将体育产业发展理解为目的,具体而言,就是以"互联网+"思维和技术作为延伸和渗透的手段,推动体育产业的创新

期刊

“互联网+”体育产业融合

中华人民共和国国务院令第587号发票管理办法

第一章总则第一条为了加强发票管理和财务监督,保障国家税收收入,维护经济秩序,根据《中华人民共和国税收征收管理法》,制定本办法。第二条在中华人民共和国境内印制,领购,开

期刊

浅谈河费征管工作经验和做法

望江是安徽省长江河道管理局河费七个征收点之一，其征收工作是从2006年开始，现将望江河费征收工作经验和做法介绍如下：一、加强领导，建立河费征收机制根据要求，望江及时成立了河费

期刊

工作经验做法征收工作征管领导小组河道管理局征收机制办公室

新疆博乐市喀拉铜矿床地质特征及找矿前景分析

通过对该矿区成矿地质特征及矿床成因的分析，认为喀拉铜矿与处于同一构造单元的喇嘛苏铜矿，在含矿层时代、岩性、围岩蚀变及矿体的成矿元素与伴生元素的组合特征等十分相似，具备

期刊

喀拉铜矿床地质特征成因类型层控构造热液蚀变喇癖苏铜矿

浅谈我县如何加强基层水管单位会计职业道德教育和提高业务素质

现阶段,会计职业道德主要包括爱岗敬业、诚实守信、廉洁自律、客观公正、坚持准则、提高技能、参与管理、强化服务八个方面。朱镕基总理曾对会计人员提出了"诚信为本,操守为

期刊

发展学校体育提高素质教育

对体育教学在提高素质教育方面的作用进行了论述,认为实施素质教育,要紧紧抓住学校体育这个突破口,面向全体学,生,规范体育教学,提高教学质量,建立必要的、切实可行的体育管

期刊

体育教学素质教育教学质量思想品德教育教师素质文化科学素质

转基因网络舆情分析及治理研究

转基因技术拥有广阔的发展前景,但自出现以来便面临这样一种情形:一方面被各国视为科技制高点和现代农业技术发展的重点,得到快速发展;另一方面,却又伴随不断争议,长期保持较

学位

转基因网络舆情情感倾向舆情治理网络新媒体

内关穴位注射治疗心脑血管疾病近况

内关穴位注射治疗心脑血管疾病,通过药物及穴位的双重作用,在改善症状、控制病情方面疗效显著.本文从中风后遗症、胸痹、心悸、眩晕四个常见病入手,就内关穴穴位注射在治疗心

期刊

内关穴穴位注射心脑血管疾病综述

水利事业单位财务管理工作的重点、难点及改革思路

水利事业的发展,方方面面都与财务工作息息相关,财务工作的好与否,管理是否到位,决定着水利事业发展的速度和质量。特别是财务体制改革后,财务工作必须适应形势,创新工作机制

期刊

朗讯携手宝利通向运营商提供视音频解决方案

朗讯科技与宝利通公司日前联合宣布，双方将合作为有线及协作网络提供IP视音频会议与协作方案及服务。根据协议，作为向企业与运营商推出的VoIP方案的一部分，朗讯科技将代理宝利通

期刊

运营商解决方案视音频Sound朗讯科技宝利通公司Point音频会议VoIPIP电话会议电话SIP桌面型协作

基于深度学习的中文生物医学文本信息抽取

其他学术论文