基于嵌入模型的知识图谱补全

来源 :中山大学 | 被引量 : 14次 | 上传用户:ICE867200WXM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱是三元组的集合,其中三元组的形式是(主语,谓词,宾语),主语和宾语是实体,谓词是关系。每个三元组(例如(奥巴马,出生地,檀香山))表示一个事实。当被应用于问答系统中时,只有当一个知识图谱覆盖了问答所对应的事实,它才能够提供所需要的答案。尽管已经有多个大规模、开放领域的知识图谱问世,它们距离完备仍然有很远的距离,例如Freebase中有30%的人物实体缺少记录他们父母亲信息的三元组。知识图谱补全就是向一个已有的知识图谱中增加新的三元组,且加入的三元组必须是客观事实。主要有两个渠道的信息可以用于补全知识图谱:1.从一个知识图谱已有的三元组来推理新的三元组。2.从文本中抽取新的实体和新的三元组。为了利用第一个渠道的信息,近年涌现了大量知识图谱嵌入方面的工作,它们为每个实体学习一个稠密的向量表示,同时基于实体的向量表示计算每个三元组的可信度。这些嵌入模型能被用于推理信息抽取模型从文本中抽取得到的三元组。由于上述两个渠道是互补的,所以合并嵌入模型与信息抽取模型能够表现出较之单一模型更好的性能。我们将现有知识图谱嵌入模型存在的弱点以及将其与信息抽取模型合并所存在的挑战总结如下:1.业界领先的知识图谱嵌入模型—TransE不能妥善地处理具有自反或者一对多/多对一/多对多性质的关系。2.在训练一个知识图谱嵌入模型时,现有的负采样算法有可能产生假阴性样本。3.对于从文本中抽取的三元组,其主语和宾语是词。如果这个三元组的主语或宾语无法链接至所考虑的知识图谱中的某个实体,现有的嵌入模型因为缺少实体的向量表示进行计算,无法对其进行推理。在本文中,我们提出一系列技术去解决上述问题。本文的主要贡献包括:1.我们表明了上述首个问题源自于Trans E将每种关系建模成对于实体向量的平移操作。于是,我们提出一个新的知识图谱嵌入模型Trans H。该模型通过在进行平移操作之前首先将实体向量投影至为每种关系定义的超平面,解决了Trans E存在的上述弱点。同时,Trans H避免了增加过多模型复杂度。2.我们提出了一个数据驱动的、每种关系独有的分布,用于采样负例来训练知识图谱嵌入模型。该分布能减少抽样到假阴性样本的机会。同时,该分布的参数可以由每种关系的基本统计量确定。3.我们首先表明,在词嵌入模型—Word2Vec中,词之间的隐式关系可以被解释成对于词向量的平移操作,类似于Trans E对于知识图谱中关系的建模。基于此,我们提出了一个联合嵌入模型,去为每个实体和每个词都学习一个稠密的向量表示。我们的联合嵌入模型能够为同时涉及词和实体的三元组计算可信度。据我们所知,我们的联合嵌入模型是能够处理此类三元组的首个方法。4.我们提出三个分别基于实体链接,实体名称,实体描述的对齐模型。用于训练这些模型的监督信息都易于获取且是规模大的。经验性评估显示,这些模型能有效将词被嵌入的向量空间与实体被嵌入的向量空间所对齐。我们做了大量的实验去比较提出的模型与基准方法。实验结果表明,我们的方法在性能上优于业界领先的方法,而且更为细致的实验结果分析肯定了我们提出模型的动机。
其他文献
<正>很多人旅行了几天的时候就想吃中国菜,当然在其他国家吃地道的中国餐并不容易。我自己也有这个特点,但总是努力告诉自己去找那个国家的好东西吃。时间久了我形成了一个习
过去人们普遍认为黑色闪锌矿贫镉,浅色闪锌矿富镉。笔者统计了国内外74个矿床,385个Cd含量数据。其中33个矿床有不同颜色闪锌矿的Cd含量数据37组。闪锌矿从黑色到浅色,Cd含量
<正>文化自信,是一种更基础和更深厚的自信。在5000多年文明发展中孕育的中华优秀传统文化,在近百年人民伟大斗争中孕育的革命文化和社会主义先进文化,积淀着中华民族最深层
在网络技术飞速发展的今天,人们的生活已经对网络依赖程度很高,网络技术的应用与推广给人们生活带来便利,同时也引发了很多的社会问题。网络实名制是规范网络的有效方式,但也
财务风险其实质是资金运作的风险,它主要存在于企业经营活动及投资融资活动之中。经营活动中的财务风险管理直接关乎企业的生存,故进行积极有效的财务风险管理,是促使现代企
<正>四川省金川县李家沟锂辉石矿床位于川西甘孜-松潘造山带,属于著名的可尔因稀有金属矿田的一部分。该矿床经过近年来的勘查工作,成为新的超大型锂辉石稀有金属矿床。矿区
<正>学生在制备固定化酵母细胞实验中,由于对海藻酸钠溶液与活化的酵母细胞混合液浓度掌握不好,难以观察到在0.05 mol/L CaCl2溶液中形成凝胶珠的情形。在实验课后的实验效果
<正>中共中央办公厅、国务院办公厅《关于实施中华优秀传统文化传承发展工程的意见》日前正式公布。中共中央宣传部负责同志就《意见》的有关问题,回答了记者提问。第一次以
1996年全国旅游院校情况统计报告一、学校与学生数据不完全统计,截止1996年底,全国共有高、中等旅游院校845所(既包括完全的旅游院校,也包含仅设有一个或几个旅游专业的院校)。旅游院校在校
目的:探讨社会认知交互训练(SCIT)在精神分裂症住院患者康复期的应用价值。方法:118例精神分裂症患者随机分为SCIT组(58例)和对照组(60例),SCIT组接受为期9周,每周2次的SCIT