基于语料库的机器翻译中翻译知识的获取方法

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:hewanjiang1975
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译(Machine Translation, MT)是利用电子计算机在不同语言之间实现翻译的一门实验性学科。随着互联网技术和机器翻译技术的发展,机器翻译在产品手册本地化、旅游会话和信息检索等领域得到越来越多的应用。虽然近年来机器翻译研究工作已经取得了长足进步,但在长文的机器翻译中翻译质量和解码速度还远未达到令人满意的水平。在基于语料库的机器翻译中,如何从大规模语料中自动获取高质量的机器翻译知识一直是该领域的研究热点。  在基于实例的机器翻译(EBMT)中,翻译实例库是翻译知识的主要表现形式。不同语系的平行句对之间,句子的语序常常有很大出入。目前仅使用单词对齐信息从平行句对中获取翻译实例的方法经常会产生译文中的语序错误。针对这一问题,本文提出利用依存句法信息为翻译知识获取提供句法约束的方法,以减少语序错误的发生。依存句法信息是句子内成分之间修饰与被修饰的关系,借助这些信息可以获得长距离的语序调整信息;同时待翻译句子的依存句法信息也可以作为计算实例相似度和解码算法的依据,提高翻译精度。本文根据这一方法构建了基于依存结构化实例的机器翻译系统。  在统计机器翻译中(SMT),短语表是翻译知识的主要表现形式。自动获取的短语表中不可避免的包含大量的冗余和错误的短语对,这极大影响了解码速度又会影响翻译质量。为了缓解这个问题,本文提出一种基于虚拟上下文的过滤短语表的方法。该方法通过引入虚拟上下文模拟解码时的语境来计算短语对在语言模型上的得分增量;并设计了一种对短语对重排序的翻译知识过滤策略,即通过分配最佳和最差语境来计算短语对的最大和最小得分增量。  基于以上考虑,本文在基于语料库的机器翻译中,设计了利用依存句法信息约束来获得翻译知识和利用虚拟上下文信息过滤翻译知识的方法。为了验证所提方法的有效性,该工作在基于实例机器翻译框架中设计并实现了带有依存结构的翻译实例的获取方法、基于依存结构特征为主的实例相似度的计算模式和译文生成算法。本文利用国际公开评测NTCIR-9的中英专利数据模拟实际翻译系统的开发过程,构建了基于依存结构化实例的EBMT系统并进行了评测实验。评测结果显示系统的性能接近NTCIR-9公布的EBMT最好系统“KYOTO”的翻译水平。针对短语表过滤方法,本文在NTCIR-9的中英数据上进行了验证实验。结果显示,当短语表的规模下降到原来的47%时,翻译质量的BLEU值提高了0.0005;当短语表的规模下降到原来的30%时,BLEU值仅下降0.0006。实验结果表明,在大规模短语表的过滤中,本文的方法是有效可行的。
其他文献
无线传感器网络是由大量的嵌入了多种传感器的传感器节点构成,同时这些节点具有有限的计算能力,通信能力和能量等特点。这些节点的特性决定了无线传感器网络主要用于以数据为
混沌是非线性科学研究领域的一个重要分支,它成为连接确定性系统和随机现象的纽带。由于混沌系统具备的参数极度敏感性、遍历性、伪随机性等特点,它被越来越多的应用于图像加
二尖瓣是人体心脏中重要的瓣膜组织,它位于左房室口周缘,借助连于乳头肌的腱索的牵拉作用,在心脏压力与血液动力的综合作用下做周期性的启闭运动,保证心脏内部正常的血液循环
服务器前置方案是否具有可行性的关键之一,就是如何尽可能地发挥硬件潜能,提高单台视频服务器的性价比。目前视频服务器的主要性能瓶颈在于资源磁盘的带宽,尤其是在多线程环
物联网被称为继计算机和互联网之后的第三次信息技术革命。近年来,在世界经济多元发展的背景下,物联网技术正在加快转化为现实生产力,为全球带来新的数字经济浪潮。其中无线
当前,移动通信网络优化已成为移动通信行业发展的关键点。作为移动通信网络优化中重要的一个组成部分,移动通信的邻区优化的目的在于找到最优的通信小区的邻区关系,以保证移
云计算以其高可伸缩、高可靠、按需付费等特征,被业界广泛接受。越来越多的大型网络应用向云中迁移,开始以服务的形式供人使用。交付到云中的网络应用可以基于云资源按需地自
云计算是能够提供方便、按需网络来访问可配置计算资源的共享池的模型,它可以用最少的管理工作或者服务提供商的交互来快速配置和发布资源。软件即服务(Software as a Servic
近年来,随着P2P网络技术地不断发展,出现了大量基于P2P网络的应用软件。P2P流媒体服务作为P2P网络的一个主要应用,从出现开始,就一直受到广泛地关注。传统C/S模式下的流媒体
人脸基准点的自动提取是人脸跟踪、人脸识别、动画以及视频通信中至为关键的步骤,在现实应用中,如视频监控系统采集得到的人脸图像都是不同环境下的具有多种姿态变化的,而且