【摘 要】
:
关系提取任务作为信息提取的重要子任务,其目标是从文本中识别出三元组,将无结构化数据转化为结构化数据。关系提取同样是构建知识图谱、问答系统等自然语言处理任务的基础工作,具有重要的研究价值。根据不同的识别文本,关系提取任务可以分为句子级别的关系提取任务和文档级别的关系提取任务。在句子级别的关系提取任务中,任务目标是识别自然语言文本中的实体,并将实体进行关系分类。在文档级别的关系提取任务中,由于所需识别
论文部分内容阅读
关系提取任务作为信息提取的重要子任务,其目标是从文本中识别出三元组,将无结构化数据转化为结构化数据。关系提取同样是构建知识图谱、问答系统等自然语言处理任务的基础工作,具有重要的研究价值。根据不同的识别文本,关系提取任务可以分为句子级别的关系提取任务和文档级别的关系提取任务。在句子级别的关系提取任务中,任务目标是识别自然语言文本中的实体,并将实体进行关系分类。在文档级别的关系提取任务中,由于所需识别的文本更为复杂,模型无法兼顾实体的识别,其主要的研究目标是对实体进行关系分类。信息冗余、关系重叠和先验推理问题都影响着现有句子级关系提取模型的性能。同时,句子级别的关系提取模型忽视了两个不同句子中的实体存在关系的可能,所以仅将模型的输入文本替换为多句子组成的文档并不能很好地完成文档级别的关系提取任务。针对上述问题,本文提出了基于注意力机制和对比三元组的句子级联合关系提取模型和基于图神经网络的文档级关系提取模型,主要工作如下所述:1.针对信息冗余和关系重叠问题,提出了基于注意力机制的联合提取模型。为了解决了信息冗余问题,本文将句子级关系提取任务分解成两个子任务:(1)识别头实体;(2)识别尾实体和关系标签。针对关系重叠问题,模型借助注意力机制预测三元组数量,从而让实体可以参与多次预测,解决重叠关系问题的同时避免了因人工阈值筛选关系带来的性能限制问题。模型在公共数据集NYT和Web NLG上F1值分别达到了90.8%和91.9%,并在重叠关系的实验中获得了较好的结果,证明了模型的有效性。2.针对先验推理问题,本文提出了基于对比三元组的关系提取模型。模型利用注意力矩阵生成关系向量,并结合实体向量和全文特征向量组合成基于上下文的三元组表达,使模型可以依据上下文信息来验证三元组的正确性,从而解决先验推理问题。模型在NYT和Web NLG数据集上相较于其它基准模型取得了更好的结果。3.在句子级关系提取研究的基础上,针对文档中不同句子中的实体之间存在关系这一特点,提出了基于图卷积网络的文档级关系提取模型。在特征提取方面,模型结合了图和序列两种不同的编码方式。利用图卷积网络提取基于图的实体特征和实体与实体之间的路径依赖关系特征,对比学习模块提取基于序列的实体特征。同时,在对比学习中引入实体结构信息,丰富了实体的特征信息,提高了关系分类的准确率。模型在Doc RED数据集上Ing F1分数为59.47%,超越了其它基准模型,证明了模型在文档级提取任务上的有效性。
其他文献
随着通信设备和传感设备数量的激增,分布式机器学习技术被广泛应用在边缘计算、智慧城市、智能汽车等领域中。然而,分布式机器学习如分割学习等算法在实际应用中仍然存在诸多问题。首先,由于串行训练的特性,分割学习的训练时间随着参与者数量的增加而明显增加,这将导致无法把分割学习部署在成千上万台通信设备的大型应用场景中。其次,由于设备所在地区、时区的差异,不同边缘设备上数据的分布往往不同,而通过聚合这些设备上分
城市高密度发展、现代化进程加快使自然景观急速退化,剥夺了儿童与自然的接触机会,造成了城市儿童新的健康问题——“自然缺失症”(Nature-deficit Disorder)。对儿童而言,在生命的早期阶段接触自然不仅可以助益身体机能健康平衡,也可以使他们与周围的环境建立更紧密的联系,锻炼儿童感知生命的能力。由于儿童身体机能尚未发育成熟,其行动能力和活动范围存在一定局限性,“社区”就成为他们获得自然资
区块链是一种公开透明且抗篡改的分散式的公共数字账本技术,如今在虚拟货币、时间戳证明、证据保持等众多领域广泛使用。工作量证明共识算法作为最稳定、最被广泛应用的区块链共识算法,使以比特币为例的众多区块链应用的平均出块时间,在很长一段时间以来都成功地维持在设计值左右。但是由于近年来虚拟货币为首的区块链的应用日渐火爆,市场价值波动明显,越来越多的矿工加入了区块链的挖矿网络。矿工们的每一次加入或是退出操作都
“五育”融合历经了古代课程思想的沉淀、近代课程体系的完善以及现代课程制度的成型而萌生,符合国家发展的需要、体现了全面发展的教育理念和科学的课程育人观,代表了新时代中国基础教育改革的前沿方向。以课程设置为视角系统梳理“五育”历史发展脉络,以期对新时代基础教育课程改革提供借鉴与参考。
党的十八届三中全会正式拉开新一轮国企改革的序幕,十九大做出深化混合所有制改革是国企改革重要突破口的战略部署,“十四五”再次突出强调将混合所有制改革向纵深推进,不断做强做优做大国有资本。并购是企业优化资源配置和实现资本运作的重要方式,已然成为国企民企战略性重组和专业化整合、推动混合所有制改革的重要途径。基于化解过剩产能、助力民营企业度过难关、促进集成创新、整合优势资源等等动因,催化了我国近年大规模并
深度学习的发展为许多任务提供了出色的解决方案,随着神经网络应用的落地,人们对其安全性和鲁棒性也越发在意,但研究表明通过往原始数据中添加扰动生成的对抗样本足以误导模型的输出。对抗样本研究可以加强对神经网络的认识,也能推动网络的防御和改进。因此探索攻击力更强的对抗样本,开拓新的对抗攻击方式是很有研究价值的。本文工作主要围绕着深度学习的对抗样本进行,贡献如下:1.基于生成对抗网络,提出了特征扰动的对抗样
自2017年以来我国可转债市场在政策鼓励下蓬勃发展,尤其在近两年里市场扩张迅速,可转债现有数量及发行规模均突破新高,可转债作为备受关注的金融衍生产品之一,其定价是否合理将对整个行业的发展及完善产生影响。我国可转债市场在2021年下半年涨势明显,其中,有色金属行业作为典型的顺周期板块,与可转债市场大盘走势契合,该行业可转债虽在存量和数量上都处于中间水平,但在此波上涨趋势中发挥了重要的推动作用,并以1
在习近平总书记提出“精准扶贫”重要思想后,我国于2021年实现了脱贫攻坚战的全面胜利。当前,习总书记指出应做好脱贫攻坚成果的巩固工作,及时发现易返贫致贫人口并进行个性化帮扶。因此,利用家庭层面易准确获得的信息对农村贫困家庭进行精准识别并分析其致贫因素尤为重要。考虑到近年来我国贫困整体呈现出多因素协同致贫的特点,基于关联规则的分类算法(Classification Based on Associat
天地一体化信息网络是由天地之间多种网络融合而成的异构网络,将作为下一代通信的关键基础设施,为用户提供大带宽、低延迟以及高速率的数据传输服务。然而,天地一体化信息网络区别于传统通信网络,具备资源受限、拓扑动态、间歇联通、用户规模庞大以及信道高度暴露等特点,为网络中实体的身份鉴别带来了诸多挑战。单个用户接入认证时效率低下、大规模用户批量认证时并发冲突,以及链路动态切换时延迟较高等问题使得传统网络中的认
在初中阶段的英语学习中,英语写作是很重要的一个部分。但是一直以来,写作是初中学生的学习难点,学生对写作的学习兴趣不高,成绩也不理想。写作要求学生具有整合和运用知识的能力,学生如果没有好的学习方法是很难掌握写作的。思维导图是英国著名心理学家托尼·布赞在20世纪60年代提出的。思维导图作为一种将思维可视化的工具,可以把抽象的、零散的知识有效的整合起来。因此,作者在本次研究中把思维导图应用于初中英语写作