论文部分内容阅读
实体识别和关系抽取是自然语言处理领域中两个十分经典的问题。能够快速准确的识别出实体对及其之间的语义关系,对于信息抽取有着必不可少的作用,同时在进行知识图谱的创建过程以及信息搜索等领域都有着至关重要的意义。随着互联网的快速发展,数据量暴增,对知识服务的要求越来越高。因此实体关系抽取技术也成为了近年来学术界和工业界的研究热点之一,并在信息检索、问答系统、知识库创建、知识图谱等众多领域发挥着极大的作用。随着深度学习的发展,基于神经网络的实体识别和关系抽取技术的优势得到充分的显现,逐渐成为了当前使用主流的方法之一。本文研究了基于深度学习的联合实体识别和关系抽取模型,文章所做的主要工作内容和创新点包含如下的几个方面:1.总结了实体识别和关系抽取作为自然语言处理领域的两大热点任务的研究背景和研究意义,介绍了实体识别和关系抽取任务的原理、质量评价指标并回顾了实体识别和关系抽取的发展历史和国内外研究现状。概括介绍了深度学习和神经网络相关的基础理论如基于神经网络的词向量技术、卷积神经网络结构、循环神经网络、长短期记忆网络和优化算法等。2.提出了一种基于双向长短期记忆网络的深度学习实体关系抽取联合模型。该模型采用双向长短期记忆网络对实体所在的语言上下文进行编码,通过共享参数的方法达到联合实体识别和关系抽取两个任务的目的,深层次的利用了语义信息且减少了错误传播,最后在Co NLL04数据集和COAE2016数据集上的实验表明本文提出的模型明显优于多个基准模型。3.提出了基于远程监督的端到端模型来进行实体关系抽取任务。该模型同样采用了双向长短期记忆网络对实体所在的语言上下文进行编码,采用一种新的标注策略将实体识别和关系抽取任务完全转化成序列标注问题,然后加入自注意力层来充分表示文本,通过带偏置项的损失函数来增强了模型对于有关系的实体对的识别能力。最后在NYT数据集上的实验效果证明了本文提出的模型的有效性。