跨语言语义依存图分析研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:charset
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自然语言处理技术的发展,自然语言处理的应用也越来越广泛,比如在聊天机器人、智能搜索、智能推荐等应用中,都运用上了自然语言处理的技术。此外,国家之间的交流也越来越频繁,人们对于各种语言的深层语义理解的需求也越来越大。语义依存图分析任务便是针对该需求所提出的任务之一。语义依存图以图的形式将语义信息进行了有序地组合,通过依存弧和语义标签定义了若干对语义单元,从而可以直接回答何时(when)、何地(where)、何事(what)、何因(why)、何人(who)等问题。本文定义了一种新的跨语言的语义依存图表示方案,该方案能够在同一个体系下标注多种语言,具有良好的跨语言性,此外,该方案定义的语义粒度适中,可以为下游的各项任务提供更精确的语义信息。本文所定义的方案对于语义标签的定义清晰,可操作性强。本文贡献了一套该方案下的在中文、英文上的高精度数据集,中文有500句,英文有1000句。此外,本文还针对语义图标注难度大、标注成本高的问题提出了两种图到图的转换算法,一种是基于Label Switching的伪数据增强算法,一种是基于图神经注意力网络的算法。在预训练模型强大的表征能力和这两种策略的高效的建模能力的帮助下,可以实现将已有的大规模语义图库和句法树库快速、准确地转换为本方案下的标注,从而实现多语言语料库的快速构建,为后续的研究工作奠定了基础。
其他文献
随着大数据的流行,越来越多的分布式计算框架(比如Hadoop、Spark等)被应用到实际的大数据应用中。为了解决大数据平台下的数据管理核心问题,将传统数据管理系统中的核心查询操作扩展到大数据平台是非常有必要的。现有Spark内置的查询操作是针对Spark SQL的内置数据类型设计且实现的算法并不全面;另一方面,针对Spark平台面向数据管理核心查询操作的综合评测工作并不多且难以满足特定环境下的评测
导弹作为现代战争中的重要远程打击手段以及战略威胁武器的载体之一,是我国国防力量构成中的重要组成部分。导弹装填是导弹生产制造过程中的重要环节,其任务是将导弹装配到弹筒中。如何精确地将弹筒与导弹轨道架对接是一个关键问题。目前国内的导弹装填工作主要还是通过手工方式对简单的工装机构进行调整,由人推动架车进行最终的对接。这对工人的技术水平有着极高的要求,特别对于大型导弹的装填,时间消耗很长。随着计算机视觉技
日常生活中的信息多以文档的形式呈现,挖掘文档中实体对之间的关系更具有实际意义。但是现有的关系抽取方法大多是句子级别的,难以捕捉文本中相隔较远的实体对之间的关系,为了弥补这一点,文档级关系抽取技术应运而生。本文拟从以下三个方面对文档级关系抽取技术展开研究:(1)基于序列的文档级关系抽取方法研究。基于序列的文档级关系抽取方法可以看作是句子级关系抽取方法的延伸,本文在该部分探究了两种具体模型,分别是利用
有效地对网络中海量的文本信息加以利用,方便人们的生活,一直是自然语言处理领域重要的研究内容。作为文本信息结构化的第一步,实体识别的结果直接影响下游任务的效果,这也使其不断迎来各种挑战。其中,细粒度的实体识别旨在不同上下文语境中对实体进行更准确、更丰富的描述,这一点在实体类别数量和类别层次上提出了更高的要求,逐渐成为目前实体识别领域中的研究热点。同时由于人工标注的代价高昂,现有的数据集大多基于远程监
人类学习知识往往遵循由简单到复杂,由基础到尖端的“先修”顺序。错误的学习顺序不仅会加大学习难度,而且容易因为不理解学科概念,“望文生义”,误入歧途。然而这样正确高效学习的顺序往往很难获得,需要领域专家在完成相关方向的探索后进行手工标注。这意味着得到一门学科的“先修”顺序,不仅需要大量的专家投入时间精力,而且往往在时效上难以辅助对前沿研究方向的探索。本文以从学科相关文本中自动化抽取先修关系为切入点,
学位
海量数据上的高效用项集挖掘是一类非常重要的查询,高效用项集挖掘是频繁项集挖掘在项存在权重时的一种扩展,本文处理高效用项集挖掘的两类研究:高效用项集挖掘和top-k高效用项集挖掘。高效用项集挖掘给定效用阈值,返回效用不小于阈值的所有项集,而top-k高效用项集挖掘给定项集的个数k,返回效用最大的k个项集,这两类研究根据不同的条件而定,都能为用户提供相应的决策支持。首先,本文研究海量数据上的高效用项集
学位
社会的发展和技术的进步使得人机交互系统逐渐成为技术研究的热点,其中对话系统是一个重要的方面。而任务型对话又是对话系统中应用面最广的技术之一。随着对话系统应用面的推广,单个领域的对话系统已经不能满足实际需求了,多领域的对话系统及其相关技术的研究逐渐成为当前研究和应用的重点,而在此基础之上的模型跨语言能力的迁移泛化又是当前国际化不断推进带来的新的具有实际应用场景的研究方向。本文首先对现有的公开任务型对
学位