融合预训练语言模型的远程监督关系抽取技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:huangqianqian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取作为信息抽取技术的一个重要子任务,为自然语言处理的许多领域提供了必要的技术支持,具有重要的研究意义和应用价值。传统方法通常采用人工标注获取实体关系标注数据集。但是这种方法繁琐昂贵,只能对少量样本进行标注,很难学习到有效的实体关系特征。为此,远程监督方法提出以外部知识库作为监督源,通过知识库中的先验知识自动标注大量句子,有效地避免有监督模型数据集规模过小的问题,成为了关系抽取的研究热点。然而,自动标注生成的数据集存在大量的噪声数据,对关系抽取任务的精确度造成了较大的消极影响,所以目前研究重点主要集中在如何减少数据集中的噪声数据。针对以上问题,本文提出了融合预训练语言模型与多层次注意力机制的双向GRU模型ERNIE-BERT-HA-Bi GRU(EBHB),主要由两部分构成:(1)通过数据分析发现,假正性噪声数据是影响模型性能的关键因素。因此,提出一种基于预训练语言模型ERNIE的远程监督数据集重构降噪策略,通过重构数据集有效地去除句包中的假正性噪声数据。(2)为了获取更深层语义信息,提出使用预训练语言模型BERT对训练集进行外部知识嵌入(embedding)。随后,将知识嵌入输入到双向门控循环单元(Bi-GRU)网络中,以捕获句子中存在的序列特征。更进一步,在Bi-GRU中加入了多层次注意力机制(HA),同时在词语和句子层面突出数据中表示实体关系的部分。本文在NYT+Freebase远程监督标注数据集上进行了对比和消融实验。实验结果表明,所提出的EBHB模型在各项评价指标上优于大多数主流模型;并且验证了数据集重构降噪策略和先验知识嵌入策略能够有效减少噪音的干扰,提高EBHB的性能。此外,还通过数据集重构案例分析与注意力可视化表示直观地展示了策略的特点和有效性。
其他文献
个人金融数据非法收集、滥用、泄露等现象引起了广泛的社会关注,给商业银行的声誉和消费者的信任带来极大冲击。内部审计部门作为公司治理的第三道防线,该如何促进提高商业银行金融数据安全管理水平和能力。近年来,随着云计算、互联网和人工智能等技术的快速发展,"数字世界"离人们的日常生活越来越近。数据作为一种新型资产,也不断改变着各行各业的经营模式,"大数据"更是为商业银行开启了数字转型之门。随着经济活动线上化
期刊
随着科学技术的发展,人机交互技术变得多样化,人们不再满足于单纯地呈现虚拟场景,开始探索与虚拟世界的交互方法,因而越来越多的人机交互技术应运而生。针对当前人机交互系统实时性和交互性的不足,本文结合目标检测技术和人体姿态识别技术,提出了一种基于改进型YOLOv5和GhostNet-OpenPose的投影人机交互方法,并开发了一套以弓箭游戏场景为例的人机交互系统,具有硬件设备简单、定位准确和交互性强等特
目的:本研究的主要目的是在4年随访时间内评估中国南方人群中体圆度指数(BRI)和体脂肪指数(BAI)与新发左心室肥厚(LVH)的关系。并确定新的体型指标是否能比传统的更好地预测LVH。方法:这是一项回顾性队列研究。该研究调查了825名同时具有基线超声心动图评估和4年随访结束时超声心动图评估的研究对象,纳入的受试者在基线时左室质量指数(LVMI)正常。研究探讨了体质量指数(BMI)、腰围(WC)、腰
不可控性出血是创伤后早期死亡的主要原因,且创伤后期的伤口感染和愈合也是一个十分具有挑战性的课题。现有止血材料存在止血效果差、不可降解、抗菌性差等不足。因此,开发一种成本低廉、生物相容性好,既能高效快速止血,又能抑制细菌感染且促进伤口愈合的可吸收性生物医用止血材料势在必行。甲壳素是一种丰富的天然高分子,因其具有良好的生物相容性、生物降解性和抗菌活性而被广泛应用于止血和伤口愈合领域。然而,传统的纯甲壳
白酒检测是保障酒质和质量安全的重要措施,目前检测技术存在着耗时长、效率低、重复性差等弊端,红外光谱检测技术具有快速简便、重复性好、灵敏等优点,近年来在白酒快速检测中被广泛应用。文章概述了中红外光谱和近红外光谱在白酒的质量指标、食品安全指标、生产过程关键指标等方面的研究应用进展,并探讨了当前红外光谱在白酒应用中的技术难点及未来发展方向。
Black-Scholes模型是当前市场上应用最广泛的期权定价模型,波动率是模型中唯一的不能直接观察得到的参数,将市场上的期权真实价格代入Black-Scholes模型反推得出的波动率称之为隐含波动率。对同一时间期限,相同股价,对执行价格和隐含波动率进行拟合,并绘制曲线,会产生一个倾斜或微笑形状的曲线,该现象称之为隐含波动率微笑。隐含波动率微笑现象说明标准Black-Scholes期权定价模型存在
提高围护结构的热工性能是降低建筑能耗最有效的途径之一。受低纬度热带海洋环境影响,我国南海岛屿地区常年高温高湿,具有显著的极端热湿气候特征,当地围护结构的热工性能受到湿传递显著影响。然而,现有研究对极端热湿气候下的墙体内热湿传递机理揭示不足,湿传递对围护结构热工性能的影响规律尚未探明。为此,本研究以经典热湿传递理论为基础,建立并验证了针对当地气候下墙体内部热湿耦合传递的数学模型,应用新建模型对墙体热
弛豫铁电体具有优异的介电、压电性能,广泛应用于超声换能器、传感器、滤波器以及致动器等电子器件之中。铌镁酸铅-钛酸铅(PMN-PT)是一种典型的弛豫铁电体,是目前研究热点之一。2018年,Li发现Sm掺杂PMN-PT铁电陶瓷具有超高压电常数,可以产生大场诱应变效应。然而,对该材料场诱应变效应的研究尚不够详尽,如场诱应变温度稳定性及其内在机制。有基于此,本论文以PMN-PT陶瓷为研究对象,通过固相两步
随着网络电视用户量的不断增长与边缘接入技术的显著提升,边缘设备呈现爆发式增长。边缘网络资源比专门用于大型视频直播系统的云流量成本要更低。去中心化的直播系统作为一种经济实惠的解决方案,其频道切换响应时间却比传统广播电视要长得多,影响观众的体验质量,因此,本文聚焦研究网络电视直播频道的数据分享与快速切换问题。基于现有相关研究工作基础,首先,本文提出一种基于边缘数据分享的网络电视直播频道快速切换系统原型
高频链矩阵整流器(High-Frequency Link Matrix Rectifier,HFLMR)是一种由三相矩阵变换器演化而来的新型拓扑结构,它一般由输入滤波器、双向开关矩阵、高频变压器、整流器、输出滤波器五个部分组成。由于该拓扑无大容量储能元件且串联有高频变压器,因此具有能量密度高、体积小、输入电流标准正弦、单位功率因数等优点,在对重量、体积、效率以及隔离需求较高的场合具有一定的应用价值