汉英神经机器翻译模型时态翻译改进研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:shancjb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习的方法被引入到自然语言处理领域,极大提升了自然语言处理在多项任务上的表现,特别是机器翻译。神经机器翻译相比于传统的统计机器翻译,实现了多方面的突破。然而在像汉语这种缺少词形变化的语言翻译成英语的场合时,由于汉语的动词时态没有明确标识,而英语的时态却直接通过动词的词形变化来指示,这使得保持翻译前后的时态一致性变的十分困难。在统计机器翻译时代,保持翻译前后的时态一致性工作有不少学者曾经研究过,而进入神经机器翻译时代以来,却鲜有人涉足。而通过我们的调研发现当前的神经机器翻译系统依然存在较严重的时态翻译的问题,因此,我们提出两种方法,通过不同的思路来尝试解决当前汉-英神经机器翻译系统中的时态翻译一致性问题。本文第一种解决时态翻译一致性的方法,是采用将源端汉语时态信息传递给目标端英语的方法。首先利用神经网络构建汉语时态标注模型来获取汉语的动词时态,在翻译的过程中利用传统Attention机制的对齐矩阵将源端时态传递给目标端,并将候选译文词集里与相应源文词时态不一致的译文候选词的概率降低。通过这种方式,可以基本实现汉语到英语的时态翻译一致性。针对时态标注模型和结合时态标注的NMT系统,我们进行了详细的实验,最终实验结果也表明我们的模型是有效的。但这种方法完全依靠传统Attention来传递时态信息,难以避免地存在传播误差,因此,我们进一步提出另一种方法来避免这个问题。本文的第二种方法是从另外一个角度来看待时态翻译一致性的问题,根据深度学习“端到端”的思想,我们尝试通过神经网络直接生成目标端的时态,而不是从源端获取时态。通过构建时态Attention模块,关注源端与时态表达相关的内容,进而生成Decoder的每一个时间步对应的时态,然后再利用这个时态预测和译文候选词的时态进行对比,降低时态不一致的候选词的概率。在我们展示的实验结果里也表明了这种方法对于解决时态翻译一致性问题的有效性。
其他文献
吸水剖面测井资料是油田测井法不可缺少的动态监测资料,特别当油田开发进入中后期,准确掌握注水井各小层的吸水情况能够为油藏中和调整,挖潜增效提供可靠的数据。
目的对不同原理的艾滋病病毒(HIV)抗体诊断方法进行评价,了解现有HIV抗体诊断试剂的敏感性、特异性等性能。方法应用6种血清盘[即基础血清盘、干扰样本血清盘、线性稀释系列
蓝相液晶是一种三维手性自组装软超结构材料,具有光学各向同性,选择性反射波长,快速响应等优秀特性,无论在显示还是光子器件的应用上都具有良好的发展前景,吸引了研究人员的
在VC++6.0平台上,利用MFC框架开发一个麻将牌连连看小游戏。同时,利用MFC的消息处理机制实现游戏中的人机对弈。在此基础之上,利用MCI设备向MFC程序中添加背景音乐,同时在MFC
现代化战争对武器打击精度的要求越来越高,而目前库存弹箭精度较差,导弹武器的研发代价又太高,不能大范围使用,因此,对常规弹箭制导化改造的弹道修正技术因其较低的技术复杂
我国中小企业在知识产权管理上大多缺少系统化、规范化高效管理,与发达国家相比仍有较大的差距。《企业知识产权管理规范》国家标准的发布,为企业建立规范的知识产权管理体系
随着光纤技术在电力通信领域的广泛应用,利用光纤通道传输继电保护信息成为现实。光纤通道是为了能满足高端工作站、服务器、海量存储子网络、外设间通过集线器、交换机和点
分析张家港保税区发展中面临着开发区之间竞争日益激烈、政策功能弱化、大宗商品市场竞争白热化的外部挑战,区港联动的效率有待提高、港口竞争优势弱化、口岸服务相对滞后的
目前,随着我国农村地区经济的快速增长,农村的消费品种类也越来越多,所产生的固体废弃物的数量、分选和处理难度也越来越大,如不对这些固体废弃物做出恰当的分类,不仅会造成
通过对电离室探测器、闪烁体探测器、半导体探测器的物理特性的分析,再根据451P型X、、射线巡测仪、BH3103B型-剂量率测量仪、6150AD 5/H型高灵敏x、剂量率仪对于医用X射线防