论文部分内容阅读
文本理解在自然语言处理和人工智能领域起着重要的作用,实体链接是帮助计算机理解文本的重要研究内容。实体链接指将一段文本中的实体指称抽取出来,将这些实体指称消歧后映射到指定知识库中的唯一实体上。实体链接能够帮助计算机找到句子中的重要语义信息,判断词语在不同上下文语境中的不同含义,在帮助计算机理解自然语言中是不可或缺的。本文从两个角度提出了实体链接方法,分别是基于百科网站属性表的实体链接和基于纯文本的实体链接。本文从人理解文本的角度出发,从词语理解到句子理解,阐述了分词,词向量表达,文档向量表达,同义词映射等基本的自然语言处理过程,并根据百度百科、互动百科、中文维基百科构建了一个基础的中文知识库。首先提出了一种基于机器学习的排序算法来处理属性表格中的实体消歧问题,旨在加强中文知识库中实体的关联性。然后提出了一种基于深度学习神经网络的文本实体链接算法,从文本中抽取实体指称并寻找对应的候选集实体,利用双向长短期网络对实体指称以及实体指称的类型建立模型,利用深度卷积神经网络对候选集实体以及实体类型建立模型,来训练实体指称和候选集实体之间的相似度。最后我们利用文档向量表达来补充实体指称和候选集实体的全局语义表达,并利用图模型算法进行联合消歧。我们将本论文提出的方法在中文和英文数据集上进行了测试。在中文百度百科随机内链消歧中获得了 81.07%的正确率,在TAC-KBP国际竞赛4年的数据集上分别获得了最高的正确率,在GERBIL实体标注平台上与其他6种算法对比中获得了最高的Macro F1为61.47%。最后本文还展示了算法在实际网站系统中的应用。