论文部分内容阅读
由于生物医学领域与人们的健康密切相关,因此生物医学领域备受关注,与此同时,相关的生物医学领域文献也呈现指数增长的态势。这些文献蕴含着海量的领域知识,是相关研究人员的宝贵资源。然而由于文献数量巨大,从文献中手工抽取知识,耗费大量的时间与精力,且很难满足相关研究者对于提取文献知识的需求,因此生物医学领域的文本挖掘技术应运而生。生物医学实体识别任务是文本挖掘的基础任务之一。本文首先基于公开的英文语料,结合翻译技术与人工标注的方法构建中文生物医学语料。接着基于大量的生物医学文献训练笔画ELMo,将笔画信息建模,充分的结合中文特有的特征,最后搭建基于笔画ELMo+BILSTM+CRF的模型完成实体识别任务。该模型可以解决一词多义的问题和蛋白质识别效果不好的问题。在生物医学领域中,临床试验筛选标准短文本分类是构建辅助医疗诊断系统的重要步骤之一,具有很高的应用前景和医学临床价值。本文针对这项任务,提出一种基于BERT融合多特征的神经网络集成模型。在预训练语言模型方面,本文使用继续训练与逐层解冻等精调技术,在训练模型方面,本文使用伪标签和五折交叉训练等技术,在特征表示方面,本文设计一系列可以提高短文本分类效果的通用特征,可以很好的缓解短文本信息不足的问题。相比于其他各种基于BERT的模型,本文提出的模型可以取得更高的精度。在生物信息抽取领域,关系抽取具有重要的意义。本文基于生物医学语料,构建基于注意力机制的BILSTM和多粒度Lattice的集成模型,该模型可以将词级别的信息整合到字符序列中,从而避免分词错误的影响,通过引入外部语言知识库,避免中文歧义的问题,最后通过融入一系列的中文特有的特征进一步改善模型的结果。实验结果表明,该模型可以很好的抽取实体间的关系。