【摘 要】
:
命名实体作为自然语言文本的关键语义信息,其识别与分类是目前自然语言处理研究中的重要研究内容。随着深度学习技术在多数语言处理任务上的普遍应用,基于深度神经网络的命名实体识别模型已经取得了较好的性能。而深度神经网络模型的成功往往依赖于规模较大的标注数据。对于使用人数较多且语料资源丰富的语言而言,获取相应的手工标注数据可能相对容易。然而,对于大多数的低资源语言而言,其用于该任务的人工标注数据规模往往较小
论文部分内容阅读
命名实体作为自然语言文本的关键语义信息,其识别与分类是目前自然语言处理研究中的重要研究内容。随着深度学习技术在多数语言处理任务上的普遍应用,基于深度神经网络的命名实体识别模型已经取得了较好的性能。而深度神经网络模型的成功往往依赖于规模较大的标注数据。对于使用人数较多且语料资源丰富的语言而言,获取相应的手工标注数据可能相对容易。然而,对于大多数的低资源语言而言,其用于该任务的人工标注数据规模往往较小,甚至可能不存在,且在这些语言上进行人工标注也显得较为困难。针对低资源语言上缺少命名实体识别标注数据的现状,本文的研究主要围绕如何充分地利用资源丰富语言上的手工标注数据,通过跨语言迁移将其迁移到资源稀缺语言上,从而完成低资源语言上的命名实体识别任务。本文主要针对资源稀缺语言的命名实体识别任务中的无监督应用场景,即语言中不存在任何该任务的手工标注数据的情况。围绕该极端应用场景,本文的研究主要包含以下三个方面。(1)研究跨语言投影的无监督命名实体识别方法。针对低资源语言不存在任何标注数据的情况,对于如何利用资源丰富语言上的标注数据,本文通过两种不同的跨语言投影标注方法将高资源语言上的人工标注数据迁移到低资源语言上。在该过程中,双语词对齐与跨语言词向量将被用于实现标注在双语之间的投影。此外,注意力机制将被加入到已有的端到端的命名实体识别框架中,以更好的建模得到待标注句子间词与词的依赖关系。(2)研究面向无监督命名实体识别的跨语言迁移方法。针对跨语言投影过程中得到的标注数据带有噪声的问题,本文提出面向无监督命名实体识别的跨语言迁移模型,以代替已有跨语言投影中的基于规则映射的方法。为了更好地将所提出的跨语言迁移模型应用于低资源语言的命名实体识别任务中,本文采用后验正则框架将跨语言迁移模型作为低资源语言命名实体识别模型的正则项,建立联合训练框架,并基于期望最大化算法迭代训练跨语言迁移模型与低资源命名实体识别模型。从而获得更准确的低资源命名实体识别模型。(3)研究基于双语数据的跨语言无监督命名实体识别方法。针对低资源语言上伪标注数据规模较小的情况,本文提出引入外部双语数据的低资源语言命名实体识别框架。在该框架中,为减少引入无监督双语数据后带来的噪声,本文提出基于词对齐的双语伪标注数据过滤方法。此外,本文还将过滤后的双语伪标注数据引入到联合训练框架中以进一步提升低资源语言的命名实体识别模型的性能。
其他文献
开关磁阻电机调速系统(SRD)是继变频调速系统、无换向器电机调速系统之后发展的新一代调速系统,其主要由开关磁阻电机(SRM)、功率变换器、控制器和检测装置四部分组成。其中开关磁阻电机具有结构简单、制造成本低、调速范围宽、可靠性高、控制变量多、高效率等优点。其产品在电动车驱动、家用电器、航空工业、伺服系统等各领域都有广泛的应用。但是由于开关磁阻电机双凸极结构及磁路饱和非线性的原因所带来的转矩脉动严重
《寻找W先生》这部微电影是一部根据真实事件改编的作品,笔者以一条新闻报道为线索,对报道背后的故事进行了艺术化的想象,以此为引子,对新闻事件进行了改编和艺术再创作。这部作品是以主人公安旭的生活、工作和自身三条线来进行发展的,采用了多线叙事的创作结构,旨在表现主人公成长的过程。在一次次的事件中,不断地磨砺主人公意志,进而推动其成长,完成个人的蜕变。片中讲述的事件的中心人物,也从他人到了主人公自己,主人
土木工程施工管理是项目管理的重要组成部分,包括很多环节和内容,具有一定的复杂性。在土木工程的施工过程中,对其进行管理有助于保证工程建设的质量,具有非常重要的作用。但
新课改倡导多元的评价方式,追求高效的课堂教学。笔者在长期的高中化学教学中积极进行课程改革实践并且不断的反思,通过长期的课堂创新改革,觉得"学习性评价"的教学模式,能够
<正>9月20日,"光之韵—林铭述中国现代建筑摄影作品展"在北京建筑大学艺术馆开展。展览以林铭述70幅中国现代建筑摄影佳作为新中国成立70周年献礼。其中有林铭述之父林乐义先
自我"与"非我"是一个对立统一的命题,可以说是所有对立统一的概念在画作上的集中表现。客观与主观、感性与理性、具象与抽象、情景交融、虚实相生等辩证统一的关系,无不体现
环境污染和能源危机是现今社会面临的两大主要问题,而大力发展新能源汽车被认为是解决以上两大问题的相对有效的途径,作为新能源汽车的核心,驱动电机系统有着非常大的研究价值。本文在电机与控制器研究现状的基础之上,突破了电机与控制器呈分开状态的局限,开发了集成控制器式驱动电机系统,通过对其进行联合仿真、散热结构优化设计,使其能够更好地满足使用需求。首先,本文阐述了集成式驱动电机系统研究的重要意义,总结了集成
本文首先详细分析了我国上市公司合并商誉中合并成本公允价值计量的现存问题,指出当采用"购买方在购买日为取得被购买方的控制权而发行权益性证券的公允价值"原则来计量合并
国内在少数民族传统体育文化的挖掘、整理方面成绩斐然,但对外的翻译传播还存在较多不足。从语言、文化和译者三个维度进行分析,发现前期研究和工具书不足、文化差异导致的文
随着现代造船模式的深入发展,船体平面分段流水线越来越多应用于大中型船舶的制造中。在制造系统中,装配线平衡问题直接影响到装配线的生产效率、设备利用率和企业的生产计划