双语语料库词语对齐的增量式训练方法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:zzjokok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,统计机器翻译取得了很大的成功。统计机器翻译模型依赖于大规模双语语料库的训练。现有的训练方法在新增语料时需要合并新语料和原始语料,并重新进行模型训练。这种训练方法存在两方面不足。其一,当训练数据规模增大到一定规模时,这种训练方法需要消耗大量的时间和计算资源。其二,如果新数据是与原始数据所在领域不同的数据,那么该训练方法得到的模型会与新数据上的真实模型存在较大的偏差。研究翻译模型的增量式训练方法具有重要的研究意义和实用价值。   由于翻译模型的构建一般起始于词语对齐,耗时最长的阶段也在于词语对齐,而且词语对齐的质量会最终影响机器翻译质量,因而词语对齐成为翻译模型训练的一个瓶颈。本文针对词语对齐,研究既高效又保证词语对齐质量和机器翻译质量的增量式训练方法,重点研究了如下三方面问题。   1.同领域词语对齐的增量式训练   面对同一领域新数据的到来,提出先用原始词语对齐模型的参数统计量来初始化新模型的参数统计量,然后应用IBM模型1和基于HMM的词语对齐模型中的期望最大化算法(EM算法)的方法来实现词语对齐的增量式训练。该方法能够借助原始模型,训练得到更适合新语料的参数估计。实验结果表明,相比传统的训练方法,该方法既降低了模型训练的时间,又提高了在新语料上的词语对齐质量。   2.跨领域词语对齐的增量式训练   当新增语料来自不同领域时,我们从词语对齐模型训练和词语对齐推断两个方面来研究这个增量式训练问题。在词语对齐模型训练方面,采用与上一个问题类似的方法,即用通用领域模型的参数统计量来初始化特定领域模型的参数统计量。在词语对齐推断方面,应用了融合多个词语对齐结果的方案来实现。并且这两方面的方法能够组合使用。实验结果表明,所提出的方法均能够改进词语对齐质量,从而提高机器翻译质量。   3.在线词语对齐训练   传统的词语对齐训练算法是batchEM算法,其参数更新频率不高,迭代收敛速度较慢。针对这点不足,应用在线EM算法(onlineEM算法)于词语对齐的模型训练中,以期降低词语对齐模型训练的时间开销。由于OnlineEM算法频繁更新参数所带来的额外计算量较大,所以我们还从E步和M步两个角度研究了提高该算法计算效率的方法。在词语对齐和机器翻译两个任务上的实验结果表明,onlineEM算法确实能够加快词语对齐模型训练的收敛速度,减少迭代轮数,同时能够得到与batchEM算法相当甚至更好的词语对齐质量和机器翻译质量。
其他文献
随着社会化网络和高性能计算的高速发展,海量存储的需求日益增长。提供海量存储服务的大规模机群文件系统正在得到产业界和学术界越来越多的重视。在网络带宽和CPU性能迅速提
随着集成电路制造工艺步入超深亚微米(very deep submicron,VDSM)和纳米(nanometer)阶段,芯片的缺陷密度不断上升,快速的成品率学习(yicld learning)有助于迅速提高芯片的成
激光标刻技术是激光技术的一个重要应用,目前已被广泛地应用到各个领域,从产品标识,到激光防伪,甚至到一些高新产品的制造中都或多或少地留下了激光标刻的痕迹。虽然目前激光标刻
污水是一种广泛存在的水体,逼真地展现污水可以给用户带来更真实、奇幻的视觉体验。污水含有丰富的污染物质,使其表现出浑浊状态,还会因为污染物质种类和浓度的不同,呈现不同
HDAudio高清音频协议是新一代音频协议。该协议具有高可靠性和灵活性的特点,为现代的计算机系统提供必要的音频接口,被广泛应用于PC和高性能的嵌入式系统中。HDAudio高清音频
随着我国研究生教育的迅猛发展,普通高等学校的招生规模越来越大,这就使得研究生数量上和种类上都得到了扩大和充实,与之同时的研究生信息化建设也迅速发展,这就使得研究生管理信
高速增长的网络链路速率(OC768,40Gbps)给IP查找的吞吐量带来了巨大的挑战。另外,路由表规模急剧增加,而虚拟路由器导致路由表规模进一步扩大,这给IP查找的存储资源带来了严
随着互联网技术的高速发展,信息技术为传统通讯业务带来了更丰富、更高效的实现手段。IT(Internet Technology信息技术)与CT(Communication Technology通讯技术)在逐渐融合中
实时车辆监管系统是一种用于对在城市道路上行驶的车辆进行实时监控和管理的系统,是城市道路交通管理的重要工具。   随着监控范围的不断扩张,原有集中式的数据处理方式已
随着计算机系统规模越来越大,用户对计算机系统的可靠性和可用性要求越来越高;集群系统因其良好的性能、易构建性和可扩展性己成为大规模生产性计算平台的首选。但大规模集群