【摘 要】
:
实体关系抽取是自然语言处理中一个重要的基础任务,最终目标是抽取出给定句子中的关系三元组,从而达到扩充知识图谱的目的。有监督的实体关系抽取需要大量的专家标注,训练数据的规模成为关系抽取发展的瓶颈。为了解决该任务中标注时耗费大量人力的问题,研究人员提出了远程监督的方法进行大规模的自动标注。通过对齐现有的知识图谱和纯文本数据,远程监督可以得到大量的自动标注数据。然而,由于对齐的假设过于强,标注的数据中存
论文部分内容阅读
实体关系抽取是自然语言处理中一个重要的基础任务,最终目标是抽取出给定句子中的关系三元组,从而达到扩充知识图谱的目的。有监督的实体关系抽取需要大量的专家标注,训练数据的规模成为关系抽取发展的瓶颈。为了解决该任务中标注时耗费大量人力的问题,研究人员提出了远程监督的方法进行大规模的自动标注。通过对齐现有的知识图谱和纯文本数据,远程监督可以得到大量的自动标注数据。然而,由于对齐的假设过于强,标注的数据中存在着大量噪声数据,对模型的训练和测试带来了巨大的影响。因而,在远程监督下的关系实体关系抽取任务的关键就是如何去噪,这也是本文研究的主题。首先,本文发现并讨论了影响函数和噪声数据判别之间的关联。影响函数作为分析训练集中每个训练样本对训练影响的鲁棒性统计方法,将训练样本的影响定义为移除该样本重新训练后,在测试集上的损失的变化。影响函数定义和计算过程与噪声判断有着很强的联系。基于此联系,本文设计了一种使用影响函数进行噪声筛选的准则IF-D。将该准则在自举法的框架下使用,从而构建了一个去噪算法。实验表明,影响函数可以用于判断远程监督标注下的噪声数据,而基于此设计的算法对于去噪有一定的作用的同时并具有可解释性。其次,在对准则IF-D进行了错误分析后,得出了在高噪声环境下其去噪的能力无法得到保证。为了解决这个问题,本文构建了更合理的判断噪声的准则IF-C,在进行噪声数据的判断时可以尽可能少的受到原数据中噪声比例的影响。同样将准则IF-C融入自举法中,并且在自举法中加入了teacher-student机制,对参数的更新进行控制。实验结果表明,该算法在公开数据集上取得了有竞争力的效果。同时,为了量化分析算法的去噪能力,本文构造了一个人工噪声数据集以模拟不同比例下的噪声环境。在模拟噪声数据集上的效果证明了该算法的鲁棒性。最后,本文提出了一种基于图神经网络的去噪算法。通过图神经网络建模远程监督得到的噪声数据集中的样本及样本之间的关系。在使用了图注意力网络后,动态地在训练时利用注意力权重拉大了噪声样本与正确样本之间的表示距离。更重要的是,得到的注意力权重可以用来减少噪声数据对训练的影响。实验表明,该方法具有良好的去噪效果。总体而言,本文提出的三个方法中的前两种基于影响函数的方法是属于对样本级别的噪声进行前处理,在正式进入训练关系抽取模型前筛除噪声数据,从而彻底消除噪声对训练的影响。第三种属于是一种训练时通过权重减少噪声数据对训练的影响,从而得到一组更好的参数。两类方法都能实现远程监督关系抽取下的去噪。
其他文献
21世纪以来,日益频发的外部冲击使区域经济系统的韧性能力问题受到中外学界和各国政府的高度关注。区域经济韧性理论的新分析视角,逐渐成为区域经济学界的理论前沿和实证焦点之一。作为生产力中最为活跃和变革最为迅速的产业,工业是提升我国经济韧性以及构筑未来发展战略优势的重要支撑。因此在不稳定性与不确定性仍然较大的当下,思考中国工业经济是否具有足够韧性以应对日益复杂的外部环境显得极为迫切。通过对区域经济韧性有
随着中国政治、经济、文化的快速发展,对外文化交流日益频繁,全球范围内对于汉语教师的需求与日俱增,而汉语国际教育专业自2007年开设以来,作为培养对外文化传播人才的专业,不断为全世界各平台机构输送相关人才。学位论文作为检验学生在校学习成果、反映培养单位培养情况的一个重要考核标准,其重要性不言而喻。论文的选题作为论文写作的关键,决定着后续论文的写作方向。因此,对于论文选题的研究不仅有利于学生今后的学习
目的:了解甘肃省5岁以下儿童腹泻症候群病例分布特征和病原流行规律,明确高危人群和主要病原,构建主要病原阳性率预测模型,为甘肃省儿童腹泻病病原监测和疾病防控工作提供方法支持和理论参考。方法:收集甘肃省2010年7月-2019年12月5岁以下儿童腹泻症候群监测信息,采用观察性研究的方法描述病例分布特征、病原检出及构成情况,明确主要病原,分析其流行特征。基于主要病原流行态势,分别构建SARIMA模型和B
《侗族大歌》是2009年浙江人民出版社出版的书籍,作者是杨晓。该书共六章,主要介绍了大歌传统的根基、形式及特征、传承体系、歌唱艺术等。此次翻译文本选自该书第一章的一、二节,介绍了大歌的物质生态背景、侗人记忆中的族史歌源。文本以侗族人民基本生产生活方式的文化为主题,属信息文本,具有信息性,在内容方面具有独立性,在信息方面具有连续性,符合本次翻译实践的文本选取要求。为促进我国非物质文化遗产保护工作、传
福建地区在宋代进入快速发展的阶段,作为宋代福建路兴化军属县的仙游也在此时与整个闽地保持了相一致的发展节奏。唐末五代以来,诸多家族因战乱、任官、授学等多种缘由迁至仙游,一些家族更自此立足于仙游并谋求家族的生存与发展。伴随着外来家族的进入,宋代仙游地方的教育、文化、信仰等各方面都得到了发展;仙游各个家族的风格也逐渐呈现出来。与宋代仙游士人的信仰生活关联最大的是科名灵应,他们热衷参与祠庙的相关活动。仙游
目的系统评价2008-2018年中国大陆孕产妇人群抗-HCV血清流行情况;以兰州市某省级三甲专科妇幼保健院产科监测平台为数据库来源,分析2008-2018年兰州地区孕产妇人群丙型肝炎病毒(Hepatitis C Virus,HCV)感染状况及趋势,通过病案信息全面探索孕产妇人群HCV感染的可能危险因素,为孕产妇人群HCV预防控制策略的科学制定提供理论依据。方法(1)系统回顾2008年1月至2018
21世纪是人才的世纪,职业技能人才作为国家人才战略储备中的重要组成部分,一直备受党和国家的领导人高度重视。习近平总书记指出:“要大力发展技工教育,大规模开展职业技能培训,加快培养大批高素质劳动者和技术技能人才。”可见职业培训对于培养国家技能人才,提升国家综合竞争力的重要性。高质量的职业技能人才取决于高质量的职业技能培训,而高质量的职业技能培训则取决于高质量培训监管,因此做好职业技能培训的监管政府稳
目的:评估CT放射组学特征将多发性肺腺癌区分为多原发肺腺癌与肺腺癌肺内转移的能力。方法:本研究回顾性分析2010年1月至2020年10月在深圳市人民医院行手术治疗的87例多发性肺腺癌患者,其中多原发肺腺癌61例和肺腺癌肺内转移26例。根据病灶大小将肺内多发病灶分为主病灶及次要病灶,再在CT影像中对次要病灶进行人工分割并提取放射组学特征,以lasso筛选得到的放射组学特征构建机器学习模型,同时结合临
近年来,随着信息通讯技术对社会各领域影响不断深入,在司法改革与网络强国的背景下,为治理网络空间,适应、调整网络生态,我国先后在杭州、北京及广州成立了三家互联网法院。这一改革的新领域积极创新了互联网环境下的审判方式,对网络治理体系、治理能力起到了积极作用。但是,该法院在整体运行效果良好的同时也在面临着困境与挑战。2018年11月17日“互联网法院案件审理问题研讨会”在首都北京召开,这是我国针对这一新
中国开发区建设历时近四十年,从东部沿海城市优先到逐渐遍及全国,吸引了大量外商直接投资,形成了资金、劳动力以及技术等生产要素的区域性汇聚,显著提升了地区生产效率水平,促进地区GDP增长。企业作为开发区政策的作用主体,如何有效地将政策优势转化为经济优势,关键取决于开发区企业是否能实现快速成长,以更好地发挥开发区在区域经济发展中的示范带动效应。本文以此为背景,深入分析了开发区设立对高成长企业形成的影响和