【摘 要】
:
在统计机器翻译领域,基于短语的方法是最为成熟和稳定的方法,但是目前已经很难再有改进的余地。对于语料库中曾经出现过的短语,短语模型可以给出比较准确的翻译,这种翻译包括
论文部分内容阅读
在统计机器翻译领域,基于短语的方法是最为成熟和稳定的方法,但是目前已经很难再有改进的余地。对于语料库中曾经出现过的短语,短语模型可以给出比较准确的翻译,这种翻译包括译文的选择词和短语内部语序的调整。但对于短语之间的语序调整,以及无法匹配的短语,这种方法难以给出有效的解决办法。因为这种方法完全没有利用深层次的句法结构信息,更不用说复杂的语义等方面的知识了。为此,人们寄希望于引入更深层次的语言结构来改进现有方法的性能。一种最直接的想法,就是引入句法结构,在句法结构的基础上建立统计机器翻译模型。本文提出了一个从源语言元结构组到目标语言元结构组的结构转换模型。从大规模的句对齐的双语句法树中,根据词汇对齐信息抽取源语言的元结构组和目标语言的元结构组的互译对,计算翻译概率。分析非线性语言模型与线性序列语言模型的异同,设计并实现了基于元结构的非线性语言模型,以此来控制元结构组的调序。采用最小错误率训练算法来训练对数线性模型中的参数,最小错误率将解码评分标准和自动评测标准BLEU结合起来,将多维优化问题分解为多次一维优化,将求解问题从连续空间转换到有限的离散空间。大大降低了求解的复杂度和难度。实验证明,经最小错误率训练后系统性能明显提高。最后将结构转换模型应用到统计机器翻译中,利用结构转换模型来隐藏源语言和目标语言之间的句法结构的异构现象。将词汇级的远距离调序转换成元结构组间的局部调序。实验证明,基于结构转换的机器翻系统的性能远远超过了基于短语的机器翻译系统Pharaoh的性能。
其他文献
高端容错计算系统是关键应用领域中的重要信息化设备,此类系统一方面具有较强的事务处理能力,另外一方面具有较高的可靠性,可长期提供高速、稳定的信息处理服务。高端容错计
近年来,可穿戴计算机、移动计算及无线自组网技术飞速发展,应用移动对象的场合越来越多,另一方面,GPS技术和传感器技术快速发展,为移动对象提供位置相关服务的导航系统有了越
跨系统切换是指移动终端从一个通信系统被切换到另一个不同的通信系统,本文主要研究和实现无线网络控制器中移动终端从第三代移动通信系统到第二代移动通信系统的跨系统切换,
可穿戴计算机(wearable computer)是一种新概念的个人移动计算系统。它是伴随着计算机不断向超微型化发展应运而生的,也是“计算机应以人为本”这一理念的必然产物。SOPC是可
生物信息学已成为能够改变科学发展的决定性力量之一,网格计算为生物信息应用提供了强大的计算和存储平台。然而,网格应用首先需要解决服务集成、资源异构、作业管理和调度等
近些年来,人们收集数据、存储数据的能力得到了空前的提高,我们可以轻而易举地获得海量数据,在这些海量数据背后隐藏着许多重要的信息,理解它们已经远远超出了人的能力,这就
运动目标跟踪是计算机视觉研究领域的重要课题之一,也是近年来备受研究者关注的前沿方向。运动目标跟踪的目的是通过从含有运动目标的图象序列中跟踪运动目标,并对其行为进行理
随着信息加速膨胀,人们发现越来越难找到自己需要的信息。搜索引擎的诞生,在一定程度上缓解了这个矛盾。但是,搜索引擎返回的结果太多,而且有时候结果并不是用户所需要的。问
在过去的几年中,无线传感器网络迅速发展,受到工业界和学术界的普遍关注。数据聚集作为无线传感器网络的关键技术之一,能够在很大程度上减少传感器节点的通信量,节约节点的电
随着以Web服务为基础的面向服务的体系结构的发展,如何有效的联合自治的、分布的、不同功能的Web服务构建新的企业业务应用成为新的热点问题。利用Web服务组合技术,企业业务