论文部分内容阅读
机器翻译是人们梦寐以求的翻译方式。机器翻译是指借助计算机自动完成语言翻译的过程。在目前所有的机器翻译方法中,统计机器翻译以其优异的翻译性能受到了极大的关注。在所有的统计机器翻译模型中,基于短语的统计机器翻译模型以其模型简单、鲁棒性高、翻译性能优异等诸多特点,成为目前研究与应用的重点。本文就基于短语的统计机器翻译模型中多项关键技术存在的问题进行了详细的探讨,提出了一系列优化方法。在基于短语的统计机器翻译模型中,短语翻译表是翻译过程中用到的核心部件,短语翻译表的主要作用在于解决机器翻译中的“择词”问题。目前,短语翻译表的构造过程有其自成一套的标准方法。短语翻译表构造的第一步为短语对抽取,传统的启发式短语对抽取方法从含有词对齐信息的双语平行句对中抽取所有与词对齐保持一致的短语对。如果对抽取的短语对长度不加以限制,那么传统的短语对抽取方法将生成一个非常庞大的短语对集合。本文针对目前短语对抽取算法存在的问题进行了详细的探讨,提出了一种基于组合的短语对抽取方法,有效的减小了短语翻译表的规模。本文方法与传统方法的不同之处在于,本文短语对抽取方法首先定义最小短语对集合,然后使用最小短语对集合组合得到一个包含更多上下文信息的短语对集合。在汉英翻译任务上的实验结果表明,与传统的短语对抽取方法相比,本文提出的组合两次的短语对抽取方法抽取的短语对集合的规模,比传统短语对集合减小44.3%,同时不降低翻译品质。在基于短语的统计机器翻译系统中,解码器是另一个核心部件。解码器即通常所说的翻译引擎。解码器的主要功能是使用翻译模型、调序模型、语言模型来完成翻译。CYK算法是本文解码器使用的核心算法。本文在对CYK算法进行深入分析的基础上,研究了一种立方剪枝优化技术。本文研究的立方剪枝优化技术有效的降低了CYK算法的时间和空间复杂度,在不降低翻译品质的前提下,极大的提高了翻译系统解码效率。通过对翻译结果的分析,发现在目前统计机器翻译模型的框架下,实词被删的现象非常严重。本文通过在对数-线性模型的解码框架下,设计四个对实词具有指示性的特征,有效的缓解了这一问题。在解码完成生成初始翻译结果之后,需要对初始翻译结果进行处理以生成人工可读的翻译结果,在机器翻译中,称之为后处理技术。本文对“汉英”翻译任务中的后处理技术进行了详细的探讨,在基于自左至右算法的解码框架下,研究了一种新的词汇大写还原算法。通过使用本文提出的算法,可快速、高质量的实现词汇大写还原操作。总体来说,本文的主要内容是对基于短语的统计机器翻译系统中的翻译模型、解码器、翻译后处理等关键技术进行深入讨论,同时提出有效的优化方法。