基于远程监督的关系抽取的降噪方法的研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:a87700180
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今大数据时代,数据正在以指数级的速度膨胀,如何快速从海量数据中抽取出有效的信息已经变得越来越重要。关系抽取作为信息抽取的核心任务,主要目的是从非结构化文本中抽取实体对的语义关系。近年来,关系抽取在文本摘要、知识图谱、知识库问答和机器翻译等领域发挥着重要的作用,是自然语言处理领域比较热门的研究课题。基于深度学习的关系抽取方法近年来被广泛采用,包括基于监督学习的关系抽取、基于弱监督学习的关系抽取。有监督的关系抽取方法人工标注成本高、效率低,因此远程监督的关系抽取方法被提出。远程监督的关系抽取方法是一种弱监督的学习方法,其训练语料是将无标注语料与知识库对齐构建而成。然而由于远程监督过强的假设,导致训练语料中存在噪声标签(被错误标记的标签),进而影响关系抽取效果。另外,在基于远程监督的关系抽取任务中,多数句子内部存在一些与关系类型毫无相关的单词,即噪声词,这些词对关系抽取也有一定的负面影响。因此针对噪声标签和句子内部噪声词两类噪声问题,本文提出PCNN+AMW模型,主要贡献有:(1)针对句内噪声词问题,本文利用关系类别与实体对的潜在联系,将尾实体向量与头实体向量的差近似代替关系向量,然后通过在输入层计算近似关系向量与各个单词的相关性,对相关性较大的单词分配更高的权重。该方法在词级别应用了注意力机制,可降低句子内部噪声词对关系预测的贡献度,进而提高关系抽取的性能。(2)由于传统的卷积神经网络只建模了输入信息的局部依赖关系,而多头自注意力机制不仅可以在多个不同的语义表示子空间中捕捉不同的语义信息,而且还可以增强局部特征的依赖性和有效特征的鲁棒性,使模型学习到解释性更强、语义更丰富的信息。因此,针对句内噪声词问题,受Transformer模型结构的启发,本文在分段卷积神经网络中引入多头注意力层,即利用多头注意力机制处理卷积层输出的局部特征,以降低句子内部噪声词对模型语义理解的影响。(3)针对噪声标签问题,本文根据交叉熵损失值分布,设计了一种与样本密度相关的权重损失函数。本文认为损失值较大且分布密度较小的样本可能为噪声样本,因此,本文将这类样本的损失值设为0,以避免模型花太多时间去学习这类样本,从而降低噪声样本对模型学习的影响。对于其他样本,其损失函数的权重与这些样本的损失值密度相关。样本的损失值密度越大,损失权重就越小,损失权重越小样本就越容易受到模型的关注,由此来提高模型鲁棒性。为了验证本文提出的方法对关系抽取的积极影响,本文在NYT数据集上进行了消融实验,并以P-R曲线、P-R曲线的AUC值、P@N分数作为性能指标。最后我们在PCNN+ONE、PCNN+ATT、APCCNs和APCNNs+D模型上进行了对比实验。实验结果表明,本文提出的PCNN+AMW模型相比其他以PCNN网络为编码器的模型,其AUC值和P@N分数都明显高于其他模型,验证了本文提出的方法的有效性。
其他文献
《印中搜闻》(The Indo-Chinese Gleaner)发行于1817-1822年,是基督教新教来华传教士马礼逊和米怜于马六甲创办的最早的英文季刊,作为英国人最早向西方世界全方面报道中国情况的重要史料,它是当时西人了解中国的主要窗口和重要渠道,在当时的欧美知识界产生了极大轰动,对于鸦片战争之前的中西文化交流具有不可磨灭的重要影响。此刊所构建与呈现出的中国观,成为后续报刊中争相引用的历史模板
学位
近几十年来,随着中国社会经济持续高速发展,国内超过2000万总人口的聋人群体享受到了更多生活的便利。但聋人群体与听力正常者的交流仍非易事,尤其是即时的交流,在很多情况下,需要手语译员作为沟通听障人士和听力正常者的桥梁,为聋人进行传译。但在中国,手语传译还是一个不太为人所知的职业,这一职业目前还面临诸多挑战,包括缺乏高质量的培训、缺少专业认证和社会认可等。迄今为止,人们就如何对中国手语进行可靠有效的
学位
进入普及化阶段后,大学人才培养质量越发成为我国高等教育的核心议题,其提升要通过教学理念和实践手段的不断更新来实现。大学教学的本质要求以学生的学习为本位,当前我国大学教学发展机构功能的发挥已经进入瓶颈期,存在只关注教师教、忽视学生学的偏差,其开展的教学服务工作也偏向于常规化的教师教学培训,无法从根本上改善大学教学水平。因此,思考如何顺应教学发展趋势,开发和落实学生学习服务功能以实现功能转型,发挥自身
学位
行政征用是行政决定的形态之一,是国家公权力以公共利益为前提,对行政相对人的财产进行强制性使用并给予补偿的一种制度。该制度源来已久,早在1954年我国第一部宪法就对其进行了规定,多年实践经验表明,行政征用制度在应对事件的突发性和资源的有限性上做出了重要贡献。2020年全球疫情暴发,疫情的突发性和传染性使得一次性防护用品成为防疫必需品,在现实需要与现存资源严重不匹配的情况下,行政征用再次凸显出价值。但
学位
新冠疫情爆发以来,图书行业受到严重冲击,原本库存量大的出版机构面临更大压力。物理空间上的限制反而促成了网络直播的快速发展,凭借着强交互、低成本和高效率等特质,网络直播给图书营销带来了新的际遇。由于自建直播流量低,网红主播成为图书直播营销热门,樊登读书创始人——樊登凭借着海量的书籍阅读、多年讲书经验以及与出版机构的合作经验,自2020年6月以来,陆续在快手、抖音、视频号开设图书直播,深厚的粉丝基础、
学位
本文由以尤金·奈达“功能对等”理论指导下的翻译实践和围绕此次翻译实践问题的翻译实践报告两部分组成。源语文本选自安德里亚·里兹,比尔吉特·朗和安东尼奥·皮姆共同撰写的《何为翻译史?基于信任的路径》(第3-4章),共计1.45万字。该书于2019年8月由帕尔格雷夫·麦克米兰出版社,是一部学术论文集,目前无中文译本。该书作者立足跨学科视角,阐述了“信任”在翻译研究以及历史撰写中扮演的重要角色,并提出了“
学位
在现代交互传媒技术的飞速发展下,AR增强现实技术在儿童科普读物中的运用渐趋火热,因其现实与虚拟无缝融合的特性被创造性地运用到儿童科普读物中,以带给儿童全新的阅读体验。但目前AR儿童科普读物设计在儿童认知与阅读过程、交互形式以及内容设计中还存在着许多待优化的问题。本文以AR儿童科普读物为主要研究对象,主要目标人群为3-6岁学龄前儿童。笔者结合儿童发展心理学、色彩心理学中的重要理论,研究儿童的生理感知
学位
尿液中各个成分的变化与健康有着密不可分的关系,是临床诊断的重要依据。尤其是尿液中离子水平的改变,通常伴随着器官障碍、功能紊乱、感染等症状,可反映人体健康状态的改变。尿液中钙离子的含量是评估人体钙代谢的一个重要指标,其对尿结石、糖尿病、肾病、高血压、先兆子痫等多种疾病的早期监测具有临床诊断意义。尿液中镁离子含量的异常也常常伴随着疾病的产生,如肾脏疾病、内分泌系统疾病、关节炎等。因此,开发对尿液中离子
学位
家校合作有利于最大化的发挥教育合力,但越来越频繁的家校冲突影响了家校合作的顺利开展。家校冲突容易对身心尚未成熟的小学生造成不利影响,同时也对构建教育共同体形成巨大挑战。近年来,我国实施乡村振兴战略推动乡村教育事业的深化发展,而家校冲突却在一定程度上影响乡村教育向深发展。由此,乡村小学家校冲突已成为当今时代亟需解决的问题。本研究选取贵州省A乡村小学的家校冲突做个案研究,通过问卷和访谈调查研究,收集到
学位
数字经济时代,数据、算法、平台等新事物不断涌现,经营者以互联网平台为载体实施的价格歧视行为变得更加隐蔽与精准,传统的反垄断规制手段在大数据背景下面临诸多挑战。鉴于此,本文从公众熟知的“数据杀熟”这一社会热点问题入手,关注隐藏在其背后的关于大数据价格歧视行为的法律问题,并对该行为进行违法性及困境分析,试图解决大数据价格歧视行为是否应从反垄断角度加以规制、又当如何规制的现实难题。大数据价格歧视作为互联
学位