论文部分内容阅读
多年来,机器翻译一直是自然语言处理领域最重要和最具挑战性的课题之一。本文基于东北大学与日本富士施乐公司多年的研究,探讨并实现了基于模板的机器翻译方法,并重点研究了基于模板的翻译方法中译文生成时需要解决的关键技术。最优模板选取和短语翻译是影响模板机器翻译的关键因素,本文通过基于文本-模板直接匹配、模板选优等方法改良了最适模板的选择;同时通过引入词义消歧和冠词选择方法改良了短语翻译的质量,并从整体上改善了机器翻译系统的性能。本文的主要内容包括:(1)针对候选模板的选取,本文提出了基于文本-模板直接匹配的方法。传统方法先利用句法分析器从待译句子中抽取候选模板,然后再计算抽取的模板同模板库中模板的相似度。但目前句法分析器的性能还不能满足实际需求,抽取模板的效果不理想,由此会影响到后续的相似度计算。本文根据候选模板对待译句子直接进行变换,然后利用编辑距离计算两者的相似度,最后利用回溯算法获取两者的映射关系。(2)模板的机器翻译中短语翻译的质量直接影响最终译文的质量,本文构建了独立的短语翻译模块,并将基于短语模板的方法作为短语翻译引擎的一个子模块。词义消歧问题是短语翻译中急需解决的问题,本文尝试了多种词义消歧方法,并将其融入到短语翻译引擎中;同时对英语译文生成时的冠词选择进行了探讨。实验结果表明基于文本-模板直接匹配的方法可以取得令人满意的性能,同时引入的词义消歧和冠词选择方法改善了译文的质量。