基于子句的开放域信息抽取

来源 :四川大学 | 被引量 : 0次 | 上传用户:xiaofeidong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取任务旨在从非结构化文本中自动抽取信息,并转换为结构化的三元组(实体-关系-实体)。根据三元组中的关系类别是否限定,信息抽取任务可以分为封闭域和开放域两类。其中,开放域信息抽取不限定三元组中的关系类别,从文本中抽取所有可能的三元组,为问答系统、信息检索和知识库构建等自然语言处理任务提供有力支持。目前开放域信息抽取工作大多在句子上抽取三元组,但在结构复杂的句子上学习抽取模板、制定抽取规则具有极大挑战。有研究者指出子句结构简单且通常只包含一个三元组,因此提出基于子句的抽取方法,通过子句识别将结构复杂的句子转换为简单的子句,大大降低了抽取三元组的难度。然而,现有工作将子句识别看作依存树上的边分类任务,存在错误传播问题。此外,目前的方法都使用人工制定的模板在子句上进行三元组抽取,但抽取模板的覆盖面窄且难以适应复杂的语言环境。针对以上两个问题,本文开展了以下工作:第一,针对现有子句识别方法中存在的错误传播等问题,本文将子句识别问题看作在依存树上的子树分类任务,提出一种动态递归神经网络学习包含全局句法信息的子树表达用于更有效的子句识别。实验表明,本文提出的子句识别方法优于现有方法,并且本文方法识别出的子句能有效提升后续关系抽取任务的效果。第二,针对目前子句上的关系抽取方法存在的覆盖面窄适应性不足等问题,本文提出使用深度学习方法在子句上进行关系抽取,通过自动学习语义信息更有效地识别三元组。此外,由于识别出的子句存在成分省略情况,导致三元组抽取不完整,需要对识别出的子句进行填充,本文提出基于深度学习的子句填充模型,自动捕捉深层次的语义信息识别句子上的子句省略成分并填充,然后在填充后的子句上使用本文提出的关系抽取模型提取三元组。实验结果显示,本文方法优于现有开放域信息抽取方法,证明了本文在子句上使用深度学习填充并抽取的有效性。
其他文献
区块链作为一种去中心化的新型分布式计算范式,具有多方创造信任、安全自治、不依赖可信第三方等特性,得到了越来越广泛的关注和应用,从最初的数字货币应用场景,逐渐拓展到了金融、贸易、征信、版权保护等诸多行业领域。联盟链相较于公有链拥有更高的交易性能和良好的监管特性,广泛受到各组织机构的青睐,其应用场景也在各行业领域得到了极大的拓展。联盟链在发展和应用过程中也遇到了各种问题与挑战,特别是联盟链的可扩展性问
人体行为识别是计算机视觉中一种重要的场景分析技术,目前已经得到广泛应用。基于视频的人体行为识别方法存在识别率不高的问题,这与视频帧提取中关键信息丢失、冗余信息较多等因素有关,也与在面对复杂场景时,使用单一特征难以对人体行为进行充分表达等因素有关。本文针对关键帧提取和人体运动视频的多特征表达进行研究,主要工作和创新点如下:(1)针对基于关键帧提取的人体行为识别,提出了一种基于动态双向时空切片聚类的关
随着科技水平的提高和社会的发展,在物质生活已经得到满足之后,人们开始更加关注精神生活的水平,很多丰富精神文明的商品成为大家追逐的目标。其中,智能手机和家庭影院的普及,让人们能享受到更好的拍摄和观看的体验。但光学领域的研究中,由于镜头的透镜在生产时无法达到理想的精度而且在组装过程中也可能产生偏差,最后会使得到的图像产生畸变,影响人们的观看体验。相机镜头产生的畸变按种类分为:径向和切向。径向畸变是因为
如今,从网上购物、视听娱乐到生活旅游等方面,人们的日常行为和决定越来越多地受到推荐系统的影响。所谓推荐即是根据用户的历史、项目的相关属性进行建模,从海量的信息中,推断出用户的兴趣爱好,帮助用户找到感兴趣的项目。推荐系统的技术核心是如何从巨量信息中为用户挖掘出有效的信息。然而,传统的推荐算法里已有的数据稀疏性问题,会致使推荐质量不太理想,无法更好地提升用户对系统的满意度。再而,因缺少系统给出的推荐结
运动目标检测是许多视频分析应用中的关键步骤。由于真实视频数据通常存在相机抖动、光照变化和恶劣天气等复杂情况,导致基于背景减法的目标检测算法可能无法有效对背景信息建模,严重影响目标检测效果。因而具有鲁棒效果的鲁棒性主成分分析(Robust Principal Component Analysis,RPCA)在目标检测领域得到广泛应用。虽然RPCA模型被成功应用于目标检测领域,但是在经典RPCA模型中
科学文献是科研人员通过实验对自然科学现象进行充分观察或研究后,对成果与结论的书面表达。海量科学文献的发表使科学的结构不断发展与完善,对科学发展中的重要影响因素进行深入了解可以有效地解决环境、社会和技术问题。通过分析科学文献数据,揭示学科主题结构及发展历程,对理解学科特点、发现新兴研究以及预测未来趋势至关重要。围绕科学文献,现有研究只关注学科框架的构建或单研究领域的主题分析,缺少完善的从学科层级自顶
基于代理的建模技术经常被用于研究复杂的多细胞生物学现象,这一技术在生物医学研究中发挥着重要的作用。近年来通过建立仿真模型研究癌症发育的过程,推测癌细胞转移时机成为了一个重要的研究方向。现有的研究证明,癌细胞的转移扩散是导致癌症患者死亡的主要原因。对于目前发病率较高的结直肠癌,肝脏是其常见的转移靶器官。因此本文利用基于代理的建模技术对结肠癌的肝转移过程展开具有针对性的研究。本研究能够评估疾病进展,为
随着2018年国家标准《智慧校园总体框架》发布,致力于构建校园工作、学习和生活一体化的智慧校园正在全国多个高校逐步成型,从课堂到生活的教育理念已经被广为接受。传统基于预制定教学计划的培养模式已不能满足当前创新性人才的个性化培养需求。以大数据分析、人工智能等信息技术为支撑的智慧教育模式已成为教育信息化的趋势,通过掌握学生的兴趣、爱好、生活习惯等,提高人才培养质量成为当前教育数据挖掘领域的重要研究问题
在计算机三维动画领域中,通过模拟类似脂肪等软体的动态效果,能为模型形变带来更丰富的视觉效果。传统的模拟软体形变的方法受限于复杂的物理计算,往往需要昂贵的时间成本。近年来,位置动力学因其简单快速的物理模拟框架,被大量应用于实时应用中。位置动力学方法通过对模型的粒子系统施加形状匹配等约束来控制粒子间的位置关系,模拟软体的形变。在实际的计算过程中,位置动力学方法通过高斯赛德尔迭代来计算模型约束集合的近似
鲁棒性和数据稀疏问题已经成为推荐系统研究中的两大热点问题。鲁棒性推荐旨在从有噪声的用户数据中捕捉用户的真实偏好,提供准确且稳定的个性化推荐。数据稀疏问题是指,相对于推荐系统的海量用户和商品,每个用户交互过的物品仅仅是商品总量的很小一部分,这导致依赖于用户历史数据的推荐模型难以准确捕捉用户的个性化偏好。尽管现有工作已经对这两个问题进行了研究,但推荐系统的鲁棒性问题和数据稀疏问题仍未得到很好的解决。现