数据分布不均衡的关系抽取任务研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:lengkuhui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于文本的信息抽取任务是自然语言处理领域的一个重要研究方向,也是很多前沿工作的研究基础,例如问答系统、信息检索、知识图谱构建等。其中,关系抽取任务是信息抽取中的一个重要分支,其旨在自动从文本中检测并识别实体之间的特定语义关系,进而将网络中海量的非结构化文本转化为结构化或者半结构化数据,使信息具有更高的利用性,是一个极具实用价值的研究课题。目前,常用于关系抽取任务的方法中,深度学习的方法凭借其优异的拟合能力和灵活的结构设计,得到了广泛的应用和较好的效果。但是,深度学习的表现非常依赖于数据量,在关系抽取任务上,虽然已有很多复杂的模型,但在传统的实验设定上效果提升不明显,对于训练数据量少的关系类别,深度学习很难发挥其潜力。为了缓解有监督学习的标注样本依赖性,本文分别从样本不均衡时的深度学习网络训练策略、语言预训练网络的应用及优化两个角度进行了研究。本文的工作主要分为以下两部分:1)从优化训练方法的角度出发,构建基于卷积神经网络的关系抽取模型,在关系向量表示和损失函数选择两方面提出了有效的优化策略。为了缓解样本不均衡对关系抽取系统训练的影响,在关系向量表示方面,本文提出了一种具有先验知识的关系向量表示方法,应用于神经网络的分类层;在损失函数选择方面,本文设计了一种特定类别的铰链排序损失函数,加强网络对于少样本类别的学习。进而在不均衡的样本分布下训练了鲁棒的关系分类器,通过实验证明,本文提出的优化策略可以帮助分类器在仅有少量标注样本的条件下,更有效地识别出少样本关系实例的关系类别。2)从丰富语言背景知识的角度出发,构建基于预训练语言模型BERT的关系抽取模型,并针对关系抽取任务的特性在输入层和训练策略上提出了两个有效的模型改进方法,验证了在数据分布不均衡的条件下,其在关系抽取方面的效果。在输入层,本文针对关系抽取任务的实体感知特性,提出了片段向量方法,在反映实体位置信息的同时,更好地体现了语句在目标关系类别方面的信息;在训练策略方面,本文针对参数训练不均衡的问题,提出了分阶段梯度更新的策略,对于新引入的参数和BERT参数在训练过程中进行不同程度的微调,有效提升了关系分类效果。
其他文献
目的:2018年Lancet杂志报道腰痛是近30年间大部分国家成人致残的首要原因,其发病率在不断上升,并强调:腰痛和颈部疼痛应成为未来预防和治疗研究的重点。而大部分的腰痛症状来源于椎间盘退变,但目前椎间盘退变的病理机制尚未阐明。最新研究表明NPMSC(nucleus pulposus-derived mesenchymal stem cell)凋亡是引起椎间盘退变的重要原因,我们通过探究柚苷对人退
文化负载词包含丰富的文化内涵,反映了不同国家,不同民族以及不同地区社会,历史,地理,宗教,思想等方面的特点。文化负载词不仅具有其特有的概念意义,还蕴含着深厚的文化信息
随着车载业务类型的爆发式增长和城市车辆日趋密集化,有限的频谱资源已经难以满足车联网的多种通信业务需求。为此,车联网引入认知无线电,通过频谱共享技术共享丰富的频谱资源,缓解车联网频谱资源紧张的问题。目前,认知车联网中通常共享具有良好穿透特性的6GHz以下频段的频谱资源。然而,6GHz以下频段由于可使用带宽有限,并不能完全满足车联网的通信需求。相比于6GHz以下频段,具有丰富带宽资源的毫米波开始为人们
目的:分析使用Enterprise支架辅助弹簧圈栓塞处理颅内复杂动脉瘤的疗效及其预后。方法:回顾性分析桂林医学院附属医院神经科2017年1月至2019年12月连续使用Enterprise支架辅助处理颅内复杂动脉瘤患者,按照动脉瘤破裂与否,破裂组做为实验组,未破裂组做为对照组1,按使用支架与否收集同期使用单纯弹簧圈治疗颅内破裂动脉瘤做为对照组2,对比破裂组与未破裂组、破裂组与弹簧圈组的临床及影像学资
职务犯罪,一直都是我国刑事打击的重点。党的十八大以来,我国对于职务犯罪的查办力度更是上升到一个前所未有的高度,在打击职务犯罪的同时,也进行着反腐败机制体制的改革。2018年年初,随着监察机关在全国范围内的成立,《中华人民共和国监察法》的出台,职务犯罪的查办发生了里程碑式的变化。查办职务犯罪的职能以及相关人员由检察机关转到了监察机关,监察机关从此取代检察机关,成为了职务犯罪的主要查办机关。与此同时,
蓝相液晶因其快速响应的特点一直被期望应用于彩色场序显示而成为下一代的显示革命。然而,由于蓝相的温度范围窄(1~2℃)一直未被应用于液晶显示器的制作。早期的研究都只局限
我国尚未系统地建立防御商标制度,但防御商标大量客观存在,其一方面对于防止恶意商标注册起到积极作用,有效地促进诚实信用经营者发展壮大自身品牌,最终也对驰名商标起到了保护作用;另一方面也同时占用了商标公共资源,不少企业注册了大量防御商标。防御商标不能对抗商标不使用撤销制度,而新商标法第四条新增条款,“不以使用为目的的恶意商标注册申请,应当予以驳回”则使防御商标的生存空间进一步被压缩。文章第一部分将防御
深化产教融合战略,创建一流品质院校,是众多民办高校实现应用型大学转型的关键。而在转型过程中存在的一个突出性难题,就是教育改革发展与现有人事制度的不匹配。人才培养定位的一线阵地就是师资队伍建设,因为具有高素养职业能力的师资队伍是高校发展不可或缺的先决条件,师资队伍教学水平的高低是教学成效显现的关键因素。因此,民办院校以高素质应用型人才培养为目标,势必拥有一支高水准的教学师资队伍。本文基于原有的教师胜
随着社会的发展和城市化进程的推进,现阶段我国以小型化、双职工家庭结构为主,家长们由于下班时间与学生放学时间不同等原因,没法准时接送孩子,形成“三点半难题”。放学后的教育难题更是令无数家庭苦恼,社会上对实施课后校内托管的呼声日益高涨。为了解决放学后小学生托管和教育难题,教育部印发了《关于做好中小学生课后服务工作的指导意见》,提倡学校应担负起放学后的教育责任,积极开展小学生课后校内托管教育。各省市根据
在新的时代背景下,公共文化服务水平正日益成为区域经济参与者取得文化优势的决定性因素之一。伴随着我国公共文化设施的不断完善,文化服务方式的不断多样化,文化事业队伍的