论文部分内容阅读
知识图谱(KG,Knowledge Graph)由于具有良好的结构化特征以及容易支持计算、推理等特点,目前已经成为各大AI应用的重要知识来源,且能够为搜索引擎以及问答系统等提供知识储备,典型的KG案例有FreeBase以及WordNet等。KG作为AI应用的底层核心技术,需要为上层提供足量且可靠的知识。因此,KG内容的丰富程度决定了一个AI应用的价值。即便目前的KG内容丰富且体积庞大,但所包含的事实还远远不足,仍需进一步补充完善,即补全KG。KG的补全旨在完成不同实体间的链接预测,从而发掘新的有效事实。互联网文本数据中通常蕴含着许多潜在的知识,这对KG而言是一个重要的补充。同时,从互联网文本数据中抽取结构化信息(称为外部信息)并补全KG,不仅能够反映当下知识的最新变化,且能够和KG中已有的知识建立起相应的联系,从而帮助我们发现更多的知识。不可忽略的是,来自互联网新闻媒体的文本数据通常未必准确可靠,如何从这些有待验证的文本数据中获取有效的信息,并和KG中已有的知识相融合,是完成补全KG任务的关键,也是重要的挑战。近年来,随着TransE等模型的提出,表示学习在KG补全领域起到了关键的作用。本文基于表示学习技术,主要工作分为以下几个方面:(1)介绍了一种从文本数据中抽取结构化信息的方法及其模型。(2)对几种典型的知识表示模型进行了介绍及评述。(3)提出了一种使用互联网文本数据针对KG进行补全的有效方法:首先从文本数据中抽取结构化信息并以三元组的形式保存;其次建立KG的知识表示模型;最后利用知识表示模型为抽取到的结构化信息进行合理性评估,并将合理有效的信息补充到KG中,从而完成KG的补全。本文以典型的Freebase知识图谱为例,分别基于三种不同的知识表示模型完成了KG的补全任务,后以精确率、召回率以及F1值作为主要指标针对本文提出的方法进行了有效性实验。结果显示,对比传统方法,本文结合KG外部信息的补全方法在F1值上有了一定的提升,从而证明本文的思路是有效且可行的。