论文部分内容阅读
实体关系抽取是自然语言处理领域中的重要任务之一,同时也是知识图谱构建过程中的关键一步。实体关系抽取的目的是从自然语言文本中提取出实体之间的关联关系,从而把实体联系起来,形成以三元组为知识单元的网状知识库,成为知识图谱的知识来源。在实体关系抽取领域,已经有很多的方法提出来,但是仍然存在各种问题。本文通过深入研究各种关系抽取方法,针对企业图谱构建这一实际目标,提出了两种基于深度学习的关系抽取模型。由于目前的研究主要是基于英文数据集的,而且中文标准数据集缺乏。本文通过网络爬虫的方式,并利用远程监督的方法构建了一个用于企业关系抽取的数据集。数据的主要来源是上市公司公告和企业新闻。为了使实验更具有说服力,本文在最后的实验阶段,还使用了一个标准的英文关系抽取数据集。传统的关系抽取方法通常需要制定大量的规则,或者构造复杂的特征工程,随着深度学习的发展,基于深度学习的关系抽取算法渐渐被提出来了。本文在目前研究的基础上,提出了两种改进的基于深度学习的关系抽取模型。第一种模型是BiGRU-CNN模型,该模型是将BiGRU网络和CNN网络以串联的方式组合,同时利用了CNN网络和RNN网络的优势。另一种模型是BiGRU-Incep模型,该模型是将BiGRU网络和Attention机制相结合,而且并联使用了一维Inception结构。针对同一实体对的多实例问题,采用了关系抽取中加入句子级别注意力机制的方法,减少了远程监督算法带来的噪声影响,提高了实体关系抽取的准确率。在特征选择上面,本文使用预训练的词向量作为主要的特征输入,另外还使用了容易获取的词性和位置等特征,避免了复杂的特征工程。实验表明使用预训练词向量和加入词性位置等特征能够提升模型效果。最后,本文使用新提出的关系抽取模型,并结合知识图谱构建的其他步骤,构建了一个小型的企业图谱,具有一定的实用价值。