论文部分内容阅读
近年来,统计机器翻译取得了很大的成功。统计机器翻译模型依赖于大规模双语语料库的训练。现有的训练方法在新增语料时需要合并新语料和原始语料,并重新进行模型训练。这种训练方法存在两方面不足。其一,当训练数据规模增大到一定规模时,这种训练方法需要消耗大量的时间和计算资源。其二,如果新数据是与原始数据所在领域不同的数据,那么该训练方法得到的模型会与新数据上的真实模型存在较大的偏差。研究翻译模型的增量式训练方法具有重要的研究意义和实用价值。
由于翻译模型的构建一般起始于词语对齐,耗时最长的阶段也在于词语对齐,而且词语对齐的质量会最终影响机器翻译质量,因而词语对齐成为翻译模型训练的一个瓶颈。本文针对词语对齐,研究既高效又保证词语对齐质量和机器翻译质量的增量式训练方法,重点研究了如下三方面问题。
1.同领域词语对齐的增量式训练
面对同一领域新数据的到来,提出先用原始词语对齐模型的参数统计量来初始化新模型的参数统计量,然后应用IBM模型1和基于HMM的词语对齐模型中的期望最大化算法(EM算法)的方法来实现词语对齐的增量式训练。该方法能够借助原始模型,训练得到更适合新语料的参数估计。实验结果表明,相比传统的训练方法,该方法既降低了模型训练的时间,又提高了在新语料上的词语对齐质量。
2.跨领域词语对齐的增量式训练
当新增语料来自不同领域时,我们从词语对齐模型训练和词语对齐推断两个方面来研究这个增量式训练问题。在词语对齐模型训练方面,采用与上一个问题类似的方法,即用通用领域模型的参数统计量来初始化特定领域模型的参数统计量。在词语对齐推断方面,应用了融合多个词语对齐结果的方案来实现。并且这两方面的方法能够组合使用。实验结果表明,所提出的方法均能够改进词语对齐质量,从而提高机器翻译质量。
3.在线词语对齐训练
传统的词语对齐训练算法是batchEM算法,其参数更新频率不高,迭代收敛速度较慢。针对这点不足,应用在线EM算法(onlineEM算法)于词语对齐的模型训练中,以期降低词语对齐模型训练的时间开销。由于OnlineEM算法频繁更新参数所带来的额外计算量较大,所以我们还从E步和M步两个角度研究了提高该算法计算效率的方法。在词语对齐和机器翻译两个任务上的实验结果表明,onlineEM算法确实能够加快词语对齐模型训练的收敛速度,减少迭代轮数,同时能够得到与batchEM算法相当甚至更好的词语对齐质量和机器翻译质量。