论文部分内容阅读
统计机器翻译是近年来自然语言处理领域最受关注的研究热点之一,具有重要的学术研究价值和广阔的应用前景。目前,统计机器翻译已经经历了基于词的模型、基于短语的模型、基于句法的模型的演进过程,正向着利用语义知识的模型迈进。
依存树旨在描述句子或短语各个成分的语法关系,兼有句法知识和语义知识,被视为语言学从句法表示向语义表示的一种过渡形式。近年来,如何有效利用依存树所包含的句法知识和语义知识来构建翻译模型的研究日益受到关注,并成为统计机器翻译新的研究热点。
本文旨在探索有效地利用依存树所包含的句法知识和语义知识来构建依存树到串模型的方法,重点对依存树到串翻译模型设计、翻译规则自动获取算法、解码算法及引入短语的方法等进行了研究,主要创新点如下:
1.翻译模型设计
基于依存树中依存关系的确定准则,本文提出了一种新的依存树分解方法,该方法以中心词-依存节点(head-dependents relation,HDR,)片段作为基本结构单元、以替换作为基本操作。其中,HDR片段是由中心词及其所有依存节点组成的依存树片段。基于这种树分解方式,本文将翻译规则表示为:源端为泛化的HDR片段,目标端为目标语言词语和变量组成的串,提出了一种新的依存树到串模型。与现有的基于源语言依存树的模型相比,该模型不再使用“插入”操作,取消了现有模型必需的启发式或调序模型,模型设计更加简单。实验结果表明,该模型的性能和长距离调序能力都显著优于成分树到串模型和层次短语模型,是第一个性能超过当前主流模型水平的、基于源语言依存树的翻译模型。
2.翻译规则自动获取算法
为了自动获取以HDR片段为基础翻译规则表示方式,本文针对翻译规则的特点设计了新的翻译规则抽取算法。该算法由树标记、可接受HDR片段识别和翻译规则生成三个阶段组成,主要有以下两个特点:1)翻译规则生成过程中,从一个可接受HDR片段生成多种泛化形式的翻译规则,并使用开放词词性来约束翻译规则的生成。实验结果表明,开放词词性约束有助于提高翻译规则的判别能力,进而显著改善模型的翻译质量。2)使用子树一致性跨度来约束可接受HDR片段的识别。子树一致性跨度是根据依存树的特点定义的,是一种比路径转换模型使用的短语跨度更为宽松的约束。实验结果表明,使用子树一致性跨度有助于改善翻译质量。
3.解码算法
解码算法是基于自底向上chart-parsing算法设计的。由于采用了多种泛化形式的翻译规则表示方式,解码过程中需要解决的一个重要问题是:如何利用多类翻译规则进行解码,即翻译规则匹配问题。本文主要考察了两种翻译规则匹配策略:最优匹配策略,为不同类型的翻译规则赋以优先级顺序,仅使用最先匹配到的那类翻译规则进行翻译;完全匹配策略,使用所有可以匹配到的各种类型的翻译规则进行翻译。实验结果表明,使用完全匹配策略时,依存树到串模型表现出更好的性能。
4.引入短语的方法
作为一种基于语言学句法的模型,依存树到串模型擅长描述语言学中的组合现象,但是在处理非组合现象(如习惯用语或固定搭配)时存在不足。特别是依存树完全由词汇化元素构成,结构相对扁平,使用基于HDR片段的翻译规则表示时,会导致该模型的短语覆盖度比基于成分树的模型更低。为了缓解这一问题,本文针对依存树的特点,提出了三种引入短语的方法,即引入句法短语、泛化的句法短语和非句法短语。其中,泛化的句法短语通过对句法短语中的部分节点进行泛化处理得到,旨在扩大具有某些上下文环境的句法短语的适用性。非句法短语的引入旨在更好地处理习惯用语和固定搭配。实验结果表明,通过引入句法短语、泛化的句法短语和非句法短语,可以显著改善依存树到串模型的性能。