面向模板机器翻译的文本生成技术研究

来源 :东北大学 | 被引量 : 7次 | 上传用户:jincaijuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多年来,机器翻译一直是自然语言处理领域最重要和最具挑战性的课题之一。本文基于东北大学与日本富士施乐公司多年的研究,探讨并实现了基于模板的机器翻译方法,并重点研究了基于模板的翻译方法中译文生成时需要解决的关键技术。最优模板选取和短语翻译是影响模板机器翻译的关键因素,本文通过基于文本-模板直接匹配、模板选优等方法改良了最适模板的选择;同时通过引入词义消歧和冠词选择方法改良了短语翻译的质量,并从整体上改善了机器翻译系统的性能。本文的主要内容包括:(1)针对候选模板的选取,本文提出了基于文本-模板直接匹配的方法。传统方法先利用句法分析器从待译句子中抽取候选模板,然后再计算抽取的模板同模板库中模板的相似度。但目前句法分析器的性能还不能满足实际需求,抽取模板的效果不理想,由此会影响到后续的相似度计算。本文根据候选模板对待译句子直接进行变换,然后利用编辑距离计算两者的相似度,最后利用回溯算法获取两者的映射关系。(2)模板的机器翻译中短语翻译的质量直接影响最终译文的质量,本文构建了独立的短语翻译模块,并将基于短语模板的方法作为短语翻译引擎的一个子模块。词义消歧问题是短语翻译中急需解决的问题,本文尝试了多种词义消歧方法,并将其融入到短语翻译引擎中;同时对英语译文生成时的冠词选择进行了探讨。实验结果表明基于文本-模板直接匹配的方法可以取得令人满意的性能,同时引入的词义消歧和冠词选择方法改善了译文的质量。
其他文献
随着网络技术的不断发展,网络的应用也变得越来越广泛,因此网络设备的数量也随着不断的增多,机房的数量更是急剧增加,机房的安全运行已经成为现代信息安全的重要保障。为了减
移动Ad hoc网络是一种特殊的无线移动网络。网络中所有结点的地位平等,无需设置任何的中心控制结点。网络中的结点不仅具有普通移动终端所需的功能,而且具有报文转发能力。与
为了防止信息泄露,机密信息都是加密后存放在外部介质中的,然而在将机密信息读取到内存之后,应用程序会将机密信息解密出来,在处理这些信息期间,应用程序的运行时内存内容有