基于深度学习的中文生物医学文本信息抽取

来源 :大连理工大学 | 被引量 : 4次 | 上传用户:yohoban
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于生物医学领域与人们的健康密切相关,因此生物医学领域备受关注,与此同时,相关的生物医学领域文献也呈现指数增长的态势。这些文献蕴含着海量的领域知识,是相关研究人员的宝贵资源。然而由于文献数量巨大,从文献中手工抽取知识,耗费大量的时间与精力,且很难满足相关研究者对于提取文献知识的需求,因此生物医学领域的文本挖掘技术应运而生。生物医学实体识别任务是文本挖掘的基础任务之一。本文首先基于公开的英文语料,结合翻译技术与人工标注的方法构建中文生物医学语料。接着基于大量的生物医学文献训练笔画ELMo,将笔画信息建模,充分的结合中文特有的特征,最后搭建基于笔画ELMo+BILSTM+CRF的模型完成实体识别任务。该模型可以解决一词多义的问题和蛋白质识别效果不好的问题。在生物医学领域中,临床试验筛选标准短文本分类是构建辅助医疗诊断系统的重要步骤之一,具有很高的应用前景和医学临床价值。本文针对这项任务,提出一种基于BERT融合多特征的神经网络集成模型。在预训练语言模型方面,本文使用继续训练与逐层解冻等精调技术,在训练模型方面,本文使用伪标签和五折交叉训练等技术,在特征表示方面,本文设计一系列可以提高短文本分类效果的通用特征,可以很好的缓解短文本信息不足的问题。相比于其他各种基于BERT的模型,本文提出的模型可以取得更高的精度。在生物信息抽取领域,关系抽取具有重要的意义。本文基于生物医学语料,构建基于注意力机制的BILSTM和多粒度Lattice的集成模型,该模型可以将词级别的信息整合到字符序列中,从而避免分词错误的影响,通过引入外部语言知识库,避免中文歧义的问题,最后通过融入一系列的中文特有的特征进一步改善模型的结果。实验结果表明,该模型可以很好的抽取实体间的关系。
其他文献
通过对该矿区成矿地质特征及矿床成因的分析,认为喀拉铜矿与处于同一构造单元的喇嘛苏铜矿,在含矿层时代、岩性、围岩蚀变及矿体的成矿元素与伴生元素的组合特征等十分相似,具备
转基因技术拥有广阔的发展前景,但自出现以来便面临这样一种情形:一方面被各国视为科技制高点和现代农业技术发展的重点,得到快速发展;另一方面,却又伴随不断争议,长期保持较
内关穴位注射治疗心脑血管疾病,通过药物及穴位的双重作用,在改善症状、控制病情方面疗效显著.本文从中风后遗症、胸痹、心悸、眩晕四个常见病入手,就内关穴穴位注射在治疗心