面向机器翻译的语言预处理与性能优化

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lqtanj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深层神经网络的发展,基于神经网络的机器翻译模型也得到广泛的研究,与传统的统计机器翻译相比,其翻译性能得到很大提升。然而,神经机器翻译仍然面临很多问题,比如命名实体翻译问题、低资源翻译问题、解码延迟问题等。在本文中,我们旨在设计模型与方法缓解机器翻译系统的构建过程中面临的问题。本文主要围绕两个方向,一个是语言的预处理,我们期望对翻译两端的句子的预处理(主要是分词与命名实体识别)可以帮助翻译系统更好地理解句子的含义。另一个是针对机器翻译的性能优化,包括两个方面。一个是翻译质量的优化,我们使用单语语料提升翻译质量,缓解对平行语料的依赖。还有一方面是翻译速度的优化,我们设计新的模型来增加神经机器翻译解码过程的并行度,减小解码延迟。本文主要的研究成果如下:  1.我们提出了一个基于卷积网络的序列标注模型。序列标注任务是自然语言处理领域最基本的任务之一,很多自然语言处理问题都可以被转化为序列标注问题。最近随着神经网络的兴起,循环神经网络在序列标注任务上的应用得到很多关注。然而,循环神经网络本身的结构限定了它对于句子只能逐个词处理,妨碍了计算并行性。我们提出的卷积网络则可以克服这一障碍,除了获得更快的并行性。在中英文命名实体识别这一任务上的实验表明,我们的模型在获得更快的处理速度的同时在准确性上也超越了基于循环神经网络的序列标注模型。  2.我们设计了一个能同时结合字级别信息与词级别信息的中文分词系统。序列标注框架能够以很高的效率解决一系列自然语言处理问题,其中就包括了中文分词问题。然而,基于序列标注的分词系统不能自然地结合词级别的信息。我们设计了一个新颖的方法,能够在基于序列标注的分词系统中使用完整的词级别信息,同时我们的方法还能利用大规模无标注语料,构成半监督学习的模式。  3.我们提出了一个新颖的适用于神经机器翻译的半监督学习框架。常规的神经机器翻译框架只是建模给定源语言句子的条件下目标端句子的条件语言模型。我们拓展了这个框架,用一个统一的框架来同时建模目标端条件语言模型、无条件的源端语言模型以及目标端语言模型。在我们的框架中,源端和目标端的单语语料也能得到合理的应用。  4.我们提出了一个半自回归的神经机器翻译模型。常规的神经机器翻译模型是自回归的,因此在解码阶段一个时间步只能解码出一个词,当目标端句子较长时,这个过程会耗费大量时间。我们提出的半自回归模型,能够打破这个限制,一次产生多个连续的词,进而更好地利用并行计算硬件,导致解码速度能显著降低,同时保持较好的翻译质量。
其他文献
对于智能机器人来说,可移动是一个重要的特性。随着相关技术,如电气机械技术、计算机技术、电子技术的飞速进步,移动机器人发展的硬件条件瓶颈基本被突破,包括驱动系统、计算能力
水下通信网络是通过水底传感器、无线浮标等组成,通过声音和无线电进行通信,可接入到现有的立体信息网中,从而形成真正的覆盖全球的立体信息网。由于水下传感器网络“水下监视系
支持向量机(Support Vector Machine,简称SVM)是机器学习中一种重要方法。该方法建立在统计学习理论的基础上,是结构风险最小化原则的具体实现。SVM集成了间隔最大化、核理论和
永磁同步电机(PMSM)伺服系统在工农业生产和航天技术等领域的应用十分广泛,由于其自身的结构和运行特点,PMSM的具有很多独特的优点。永磁同步电机伺服系统作为一种新型交流伺
计算机排样问题是指在在特定底料内排放衣片,使区域的利用率达到最大,鉴于衣片均是不规则二维图形,所以该计算机排版问题可抽象成二维不规则图形优化排样问题。优化排样问题
海洋是个巨大的资源宝库,也是世界上最大的地学实验室。开发和利用海洋资源对发展经济,提高国家综合实力,维护国家主权和权益,具有重要而深远的战略意义。有鉴于此,世界上多数国家
本文提出了两种能够产生多涡卷混沌吸引子的系统:1)由混沌信号驱动的二阶非线性系统,2)结合不连续饱和函数系的线性切换系统,在后者中发现了一种新型的多涡卷双螺旋吸引子。这两
高压输电线路巡线机器人具有爬坡能力、自保护锁紧机构和刹车抱卡机构,不仅能在档间线路上行走,利用所携带的传感器对杆塔、导线、绝缘子、线路金具等进行检查,而且还能自主跨越
正系统理论广泛应用于光纤滤波、化学工程、生物医药、经济学、社会学等多种领域,而最初源于隐马尔科夫模型辨识的正实现问题是正系统理论中的一个基本问题,受到研究人员的大量
纺织业在我国一直以来都是重要的传统优势产业,也是重要的出口行业。印染过程作为纺织生产的重要环节,影响着纺织面料的质量和染色效果。现代印染企业采用自动化的生产设备,