论文部分内容阅读
在人工智能时代,日常生活的多方面正在走向智能化,包括网页搜索,智能推荐,智能问答等。在推进智能化的过程中,需要机器拥有和人类类似的知识储备。因此,如何构建一个完善可靠的知识图谱成为一个十分有价值的工作。其中,从文本中提取实体间的关系是构建知识图谱过程中重要的一环,也是难点之一。实体对的关系提取方式根据是否有上下文信息可以分为两种。一种是关系抽取,在一个包含待提取关系实体对并且表达的关系不会发生变化的句子文本中,根据句子的信息抽取实体对的关系。目前,大多数方法采用远程监督学习,并且,采用多实例学习方法减少噪声数据的影响。另一种是关系推理,在由多个陈述句组成的事实且实体间的关系随着事实的描述会发生变化的文本中,根据上下文信息回答问题,问题涉及事实中的实体和关系。目前,大多数方法采用提取句子级别的特征信息,再将句子信息进行融合,最后结合问题信息给出答案。本文在对基础技术学习的基础上,着重研究并提出了句子中实体间语义特征提取方法和在词语层的关系推理方法,主要研究内容如下:(1)针对目前提取句子特征的方法只能提取出句子的结构特征,而忽略了句子的语义特征,影响模型准确率的问题,通过引入语义依存图的最短路径,并提取实体间语义特征,提出了基于语义依存图的关系抽取方法。本文将从语义依存图中提取的实体间最短路径作为神经网络模型的输入,并构建双向循环卷积注意神经网络模型(BLCANN)。在模型中提取形式为<词,依存关系,词>的最小依存单元特征信息。从而,在语义相同而表述不同的句子中提取到相同或类似的特征信息。最终,通过实验表明,该方法与基线方法相比准确率有明显提高。(2)近几年,图网络模型被提出并广泛应用。针对面向关系推理的图网络构建问题,本文通过引入语义依存图表示词之间的关联信息,提出了一个词级别的关系图网络模型,与句子级别的关系推理相比,该模型可以细粒度反映关系推理中实体间的关系。基于语义依存图的关系图网络模型将词作为节点,语义依存图的词间依存信息作为节点与节点的边信息,并逐句将整个事实信息融入更新到图网络中。同时,为了在保留节点间关键信息的条件下,降低基础完全图的更新计算量,本文通过在图中引入Master节点,提出了一种基于信息汇聚的节点更新操作。该方法将所有的词节点信息汇聚并更新Master节点,将更新后的Master节点信息作为各个词节点更新的依据,从而减少了更新节点时的计算量。最终通过实验表明,基于语义依存图的关系图网络在准确率上与基础方法相比能有所提高。(3)汉化与改进Pydial系统,系统中汇聚了大量的千岛湖景区周围的餐饮与酒店信息,并能向用户提供一些简单的景点、住宿和餐饮信息咨询。在系统中,对于从网络上抓取的景点、住宿和餐饮信息使用BLCANN模型抽取实体间的关系并将信息结构化存入知识库。其次,在对话动作推理阶段,使用基于语义依存图的关系图网络模型结合整体对话过程推理下一步的对话动作。