论文部分内容阅读
随着人工神经网络的发展,神经机器翻译模型展现出了巨大的潜力和良好的发展前景,目前已经成为了机器翻译学术界和工业界的研究主流。神经机器翻译模型在一些翻译任务上已经超过了传统的统计机器翻译模型,达到了SOTA(State-of-the-art)的效果。神经机器翻译模型翻译流畅度较高,然而存在着翻译准确度不高、易过翻/漏翻、模型可解释度不高、长句子翻译困难等问题。在此背景下,越来越多的工作尝试使用语言学知识来提高神经机器翻译模型的性能。研究结果表明,语言学知识的融合丰富了神经机器翻译模型可学到的翻译信息,提高了神经机器翻译模型的性能。然而,语言学知识作为一种额外的、规则的、多样的信息,如何与神经机器翻译模型进行有机的、高效的融合,成为了神经机器翻译研究中的一个重要主题。因此,本文针对目前神经机器翻译模型中语言学知识引入效率低和引入的方式等问题进行了研究。具体研究工作如下。1)针对神经机器翻译模型准确度不高、长句子翻译困难以及现有的语言学知识融合方式等问题,在编码器解码器神经机器翻译模型基础上,本文提出了基于依存信息监督的局部注意力机制下的神经机器翻译模型。本模型将语言学知识中的依存信息与局部注意力机制结合,使用语言学知识来提升注意力机制,从而将依存语法信息以更准确更有效地方式融合进神经机器翻译模型中来提升翻译效果。2)针对语言学知识利用效率低下、在引用过程中增加额外成本等问题,在编码器解码器神经机器翻译模型基础上,本文提出了基于多层注意力机制下的神经机器翻译模型。本模型改变了将语言学知识作为一种额外的信息机械的加入神经机器翻译模型中的方式,转而尝试将神经机器翻译模型自身学到的语言学知识充分地加以利用。本模型既利用了语言学知识,又不需要引入额外的语言学知识,以更有效更快速的方式提高了神经机器翻译模型。