【摘 要】
:
近十几年互联网和移动互联网的急速发展,互联网上的信息呈指数形式快速增长,包括文字、视频、音频等数据格式,此时我们已无法仅靠人力去获取和理解如此庞大的数据量。关系抽取作为自然语言生成和自然语言理解的基础任务备受青睐。关系抽取的任务中,基于远程监督的方法是比较热门的一种。该方法利用知识图谱与语料库进行对齐,从而得到大规模的标记数据来进行模型的训练,不仅大幅降低了实体关系抽取过程中对人工的依赖,而且增加
论文部分内容阅读
近十几年互联网和移动互联网的急速发展,互联网上的信息呈指数形式快速增长,包括文字、视频、音频等数据格式,此时我们已无法仅靠人力去获取和理解如此庞大的数据量。关系抽取作为自然语言生成和自然语言理解的基础任务备受青睐。关系抽取的任务中,基于远程监督的方法是比较热门的一种。该方法利用知识图谱与语料库进行对齐,从而得到大规模的标记数据来进行模型的训练,不仅大幅降低了实体关系抽取过程中对人工的依赖,而且增加了训练集的规模。然而远程监督带来便利的同时也使训练集增加了噪音数据,这也成为了阻碍远程监督关系抽取性能提升的主要瓶颈。许多研究都致力于从这些噪音数据中识别有效的示例,从而提高关系抽取的准确率。但大部分方法只是独立的处理各个关系,忽略了层级关系类型体系所带来的丰富的关系之间的语义信息,而这些信息对解决长尾问题至关重要。针对这一问题本文提出的多层级的注意力机制,多层级的注意力机制对袋中的每个示例对于不同关系层级的注意力都做了计算,从而获得一个由粗粒度到细粒度的袋的表示。另外,对于目前公共的远程监督数据集,存在训练集和测试集关系类型分布差别大的问题,这也是远程监督关系抽取准确率下降的原因之一。本文通过使用一个简单有效的调整方法——偏差调整来解决训练集和测试集关系分布不均的问题,并提出了两种具体实现方案。最后,本文注意到知识库中辅助信息对于关系抽取模型的提升,分别在句子编码、袋编码阶段利用了知识库中关系触发词和实体类型的信息,进一步提升关系抽取效果。因此基于以上三点,本文提出了基于多层级的注意力机制和偏差调整的关系抽取模型,可以在一定程度上解决上述三个问题。最后通过实验证明,本文提出的基于多层级的注意力机制和偏差调整的关系抽取模型在P-R曲线、AUC(Area Under the Curve)、Hits@K性能指标上略优于主流模型,而且在针对长尾关系中的表现远超其他对比模型。
其他文献
图卷积网络可以利用来自高阶邻接点的协同信号学习用户和物品嵌入,因此被广泛用于推荐系统之中。但是与其他图卷积模型一样,基于图卷积网络的推荐模型会遇到过度平滑问题,即当堆叠更多层时,节点嵌入会变得更相似,最终变得不可识别,从而导致推荐性能下降。在这样的背景下,对图卷积网络推荐模型进行研究,提出了一种基于子图的图卷积网络推荐模型,该模型通过对子图进行高阶图卷积的方式解决在图卷积网络推荐模型中出现的过度平
随着移动互联网时代的高速发展,我国的主流视频网络企业不断壮大,并且更多的企业通过互联网、社交平台、电子商务等渠道来提升品牌价值,优化企业盈利模式,满足消费者的需求。人们逐渐从信息匮乏的时代步入信息过载的时代,为了给广大信息消费者提供精准的信息流,因此推荐系统逐渐成为移动互联网时代性下的核心关键技术。随着网络中视频流数量和视频流用户的数量急剧增加,视频推荐系统在数量累计的过程中往往会遇到冷启动的问题
上下文信息的获取在语义分割任务中非常重要。卷积神经网络(Convolutional Neural Networks)通过堆叠卷积层扩大感受野,效率较低。基于自注意力的方法没有卷积操作中感受野的限制,更适合在语义分割任务中整合全局上下文信息和处理长距离依赖。但现有的自注意力方法普遍存在着参数量大,计算复杂度高的问题。针对以上存在的问题,设计了一种用于整合上下文信息的自注意力方法:点上下文整合(Poi
室外定位技术目前已经相当成熟,包括有北斗卫星导航系统和GPS等在内的全球卫星导航系统,结合惯性器件或者先验数据和电子地图,进行最优估计和匹配,能够得到较为准确的位置估计。但由于其技术原理的局限性,在室内环境下无法进行定位。随着智慧城市、智慧校园等概念的提出,室内导航定位技术成为了不可或缺的一部分。目前室内定位的技术多为低功耗短距离定位,基于无线WiFi的定位技术在实现和部署方面具有天然的优势,硬件
随着全球化的浪潮到来,信息化导致人们接受的信息呈现了指数型的爆炸增长,而其中各种信息中又以文本数据最为庞大。文本数据通常以非结构化的形式存在,而如何将非结构化的文本信息提取出结构化的信息并且使用计算机进行存储和处理是当前自然语言处理应用场景中一个函待解决的问题。关系抽取能够从非结构化的文本数据中提取到结构化的三元组信息,因此实体关系抽取的方向是解决该问题的关键方向。虽然近年来自然语言处理领域中关系
随着中国社会步入老龄化,盆底功能性障碍疾病发病率将会呈现出上升趋势,盆底功能障碍性疾病已经成为常见的五大慢性病之一,其病征表现严重影响成年女性的生活质量和身心健康,需要进一步提升成年女性对于盆底功能障碍性疾病的认知以及实现盆底功能障碍性疾病的早期干预和治疗。实现盆底功能障碍性疾病的早期干预和早期治疗的重要环节为对盆底疾病进行早期的诊断和筛查,如何利用易于获得的数据对病患群体进行初步筛查,对于改进盆
命名实体识别(NER)旨在找出文本中的命名实体并对其分类,是自然语言处理(NLP)领域中的关键任务,是问答系统、机器翻译等多种自然语言处理技术必不可少的组成部分。在实际的应用场景中,带标注训练样本的匮乏是一个不得不面对的难题,因此针对小样本学习的命名实体识别是一个十分重要并亟待解决的问题。随着大量的国内外对命名实体识别任务的不断探索与研究,目前有许多结合了神经网络强大特征提取能力与条件随机场学习标
随着多元音乐文化的蓬勃发展,当今用户时刻都在接收各类新兴音乐文化,其喜好千差万别并向着差异化方向发展。各大音乐推荐系统虽然能减少用户的搜索时间,改善用户体验,但还是难以满足用户个性化需求。通过分析发现现有的音乐推荐系统一般只考虑用户与歌曲的二元关系,而忽略用户在听歌时所处的情景信息。因此对获取得到的情景相关数据进行充分分析,并采用合适的方式将情景特征融入推荐系统,具有重要的理论价值和实用价值。针对
人类认知智能的一个重要特点是能够从少数样本中快速汲取知识。虽然在过去的几十年里,深度学习的研究在广泛的应用中取得了显著的进展,但所提出的方法高度依赖于大量的标记数据。因此,在有限的可用计算资源下进行快速学习是一个挑战,即启发式地解决只有少量标记数据的新任务的小样本学习问题。学习一个分类模型并使之具有良好的泛化性能是小样本学习的目的,当该模型在遇到只有一个或几个样本的新分类任务时,也能表现出不错的分
桥梁色彩设计过程受到不真实的色彩显示、不全面的环境因素和不智能的设计决策等障碍因素影响,以致最终的实施方案往往取决于设计人员的欣赏水平或过往经验、真实色彩效果与设计色彩误差较大、色彩方案与桥梁周边环境不和谐。本文的研究针对桥梁色彩设计复杂性,初步将桥梁色彩方案设计过程分为色彩环境模拟系统搭建与色彩方案推荐及系统模拟两阶段。一阶段对跨江桥梁色彩设计要点进行总结从而确定控制色源与被控制色源,对不同城市