【摘 要】
:
知识图谱嵌入任务旨在为知识图谱中的实体与关系生成低维的、连续的特征向量,使计算机可以通过数学运算来挖掘出知识背后的潜在语义,并应用到三元组补全,实体分类,实体解析等下游任务中。翻译模型是一类简单且有效的知识图谱嵌入模型,受到了研究者的广泛关注,目前比较流行的做法是将翻译模型与知识图谱外的实体描述信息相结合以提高嵌入质量。现有方法大多数使用Word2vec词嵌入来生成实体描述向量,而Word2vec
论文部分内容阅读
知识图谱嵌入任务旨在为知识图谱中的实体与关系生成低维的、连续的特征向量,使计算机可以通过数学运算来挖掘出知识背后的潜在语义,并应用到三元组补全,实体分类,实体解析等下游任务中。翻译模型是一类简单且有效的知识图谱嵌入模型,受到了研究者的广泛关注,目前比较流行的做法是将翻译模型与知识图谱外的实体描述信息相结合以提高嵌入质量。现有方法大多数使用Word2vec词嵌入来生成实体描述向量,而Word2vec词嵌入忽略了词序信息并且依赖于人为提取的关键词的质量,这使得生成的实体词向量缺乏描述文本的上下文语义。另外,翻译模型中使用的负采样方法为随机负采样,容易生成低质量的负三元组,导致实体与关系向量训练不充分。针对以上问题,本文从两个方面展开研究:(1)针对Word2vec提取实体描述语义效果不佳的缺陷,本文提出了利用Bert编码实体描述信息的联合嵌入模型(BEDI-Trans E)。首先,设计了描述向量编码器,依据实体描述的文本长度与实体词在句中的出现频率制定了长文本剪枝策略与向量选取策略,并在Bert模型的输出位置加入了全连接层以降低输出向量的维度;其次,利用Trans E模型作为事实向量编码器,训练生成了事实向量;最后,设计了联合嵌入编码器,对翻译模型的得分函数进行了细分与优化,并将事实向量与描述向量输入其中进行联合学习。本文将BEDI-Trans E与其他模型的嵌入效果进行了对比,验证了模型的有效性。(2)针对翻译模型随机负采样的缺陷,本文提出了基于相似实体的负样本生成器(NSSE)。首先,采用Canopy算法与K-means算法依据实体向量在空间中的距离进行相似性聚类;其次,引入实体的类别信息对同一聚类中的实体进行类别过滤;最后,从同聚类同类别的实体中随机选取替换实体并生成负样本三元组。实验表明,加入NSSE之后的翻译模型相比于原有模型取得了更好的嵌入效果。
其他文献
我国《民法典》规定了不动产抵押权以登记为设立要件,但在实践中存在大量未经登记的“不动产抵押权”。未经登记本身虽不影响不动产抵押合同的生效,但是不能有效设立不动产抵押权。因此,应当首先明晰未登记不动产抵押合同这一状态的性质,因其认定与后续责任的分配承担、法律救济的举措密切相关。一方面,从学界视角出发,着重进行未登记不动产抵押性质的理论界定,将当前学者对此问题的看法归纳总结为非典型担保说、连带保证说以
油气田单井生命周期是指从井的诞生到消亡的整个过程,包括钻井、测井、生产、报废等的所有业务和数据。目前,石油勘探开发数据管理存在数据可用性差、数据检索复杂、服务对象单一等问题。因此,实现以井为单位,以时间为轴线的数据管理技术研究对于石油勘探开发数据管理具有重要意义。针对以上问题本文展开了如下研究:首先,研究了基于主题域、业务流和数据流的油气田单井生命周期本体知识划分方法,参照油气田单井生命周期和领域
双层股权结构作为一种绝大多数存在证券交易所的国家与地区所普遍认同的一种上市公司治理结构,如何实现对于双层股权结构上市公司的有效监管,利用监管手段发挥制度优势,限缩可能风险,一直以来都是世界各国在允许双层股权结构公司上市时所需面对的首要问题。基于增强我国证券交易所竞争力的考量,上海证券交易所新设的科创板正式引入双层股权结构,这为我国公司提供了更多制度选择的同时,也对法律监管体系提出了更大的挑战。特别
时序数据普遍存在、实用性高,与无序数据相比,在趋势预测、规律发现方面价值很高。收集时序数据时,采样间隔不固定,高频采样成本较大,样本数据偶有缺失,导致数据质量欠佳。压缩感知是数字信号处理领域一种新的采样理论,针对连续信号采样过程有很好的效果。本文将压缩感知重建用于时序数据的优化,做出以下工作。首先,针对完全随机缺失(Completely Random Missing,CRM)机制下的时序数据集缺失
目前,我国陆地上大部分的含油气储层业已进入了勘探开发的中后期阶段,紧随其后的是不断加大的勘探开发难度,持续增加的人工时间及生产作业成本,油气勘探面临着越来越严峻的考验。合理利用地震数据可以有效地帮助研究人员进行储层预测,而地震属性提取是开展相关工作的基础。常规地震属性研究工作中,地震属性数据与预测对象之间关系千头万绪,如何减少工作中非必要的属性提取造成的效率低下,合理地选择地震属性是亟待解决的问题
世界各国,不管是大陆法系国家还是英美法系国家都对辩护律师的权利进行了保障,这是“惩罚犯罪”与“保障人权”的内在要求。由于我国历史“无讼”文化和“善有善报,恶有恶报”的淳朴的儒家思想的长期影响,导致我们注重打击犯罪嫌疑人、被告人,对作为其委托的辩护律师持片面印象,认为辩护律师是在为“恶人脱罪”。英国哲学家培根曾经说过:“即使只有一次不公平的审判,产生的后果都要超过十次犯罪所造成的后果,不公平的审判其
农村集体成员收益分配请求权属于成员权的内容。农村集体成员基于成员身份对农村集体收益享有请求分配的权利,一旦集体组织不履行分配职责或滥用分配职权,存在应分配却不分配的情形,集体成员可以通过行使收益分配请求权来实现自己的合法权益。集体收益的分配应从两个方面理解:一是集体的管理决策机构应根据法律、法规和章程的规定及时履行分配收益的职能;二是在集体收益满足分配条件时,农村集体成员享有请求集体管理决策者向自
智能终端的普及与应用极大的促进了轨迹数据挖掘领域的研究与探索,得益于GPS(Global Positioning System)等导航技术的发展,这些智能终端记录了大量的移动个体的出行轨迹信息。通常而言,移动个体会使用多种不同的出行方式,这使得移动个体的完整轨迹信息会被分散地记录在不同智能终端所对应的轨迹数据库中。如何将这些分散的轨迹从这些轨迹数据库中甄别出来从而拼接成一个移动个体的完整出行轨迹是
如何设计出能够自动适应不同任务环境的智能模块机器人一直是一个非常有研究价值的问题。当前,大多数模块机器人的结构和控制策略都是由研究人员针对某一特定任务环境设计出来的。这使得模块机器人在任务环境发生变化时无法自动的对结构和控制策略做出调整。为了让模块机器人能够在仅给出任务目标,但没有预先知道整个任务环境的情况下,可以自动地根据所处的场景对结构和控制策略进行调整,本文提出了以下两种算法。(1)为了令模
在工业物联网(Industrial Internet of Things,IIo Ts)中,通常会安装各种无线传感器来感知环境或事件,同时安装一个或多个接收器来收集无线传感器感知到的信息,以供专业分析。对于许多工业应用,实时分析都是必须的,以确保工业环境下的应用效能和应用安全,例如石油天然气钻井中的测井应用。因此,提供延迟保障或者降低时延是工业应用环境下关注的焦点。在工业无线网络(Industri