依存树到串统计机器翻译模型研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:TIGERKING2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计机器翻译是近年来自然语言处理领域最受关注的研究热点之一,具有重要的学术研究价值和广阔的应用前景。目前,统计机器翻译已经经历了基于词的模型、基于短语的模型、基于句法的模型的演进过程,正向着利用语义知识的模型迈进。   依存树旨在描述句子或短语各个成分的语法关系,兼有句法知识和语义知识,被视为语言学从句法表示向语义表示的一种过渡形式。近年来,如何有效利用依存树所包含的句法知识和语义知识来构建翻译模型的研究日益受到关注,并成为统计机器翻译新的研究热点。   本文旨在探索有效地利用依存树所包含的句法知识和语义知识来构建依存树到串模型的方法,重点对依存树到串翻译模型设计、翻译规则自动获取算法、解码算法及引入短语的方法等进行了研究,主要创新点如下:   1.翻译模型设计   基于依存树中依存关系的确定准则,本文提出了一种新的依存树分解方法,该方法以中心词-依存节点(head-dependents relation,HDR,)片段作为基本结构单元、以替换作为基本操作。其中,HDR片段是由中心词及其所有依存节点组成的依存树片段。基于这种树分解方式,本文将翻译规则表示为:源端为泛化的HDR片段,目标端为目标语言词语和变量组成的串,提出了一种新的依存树到串模型。与现有的基于源语言依存树的模型相比,该模型不再使用“插入”操作,取消了现有模型必需的启发式或调序模型,模型设计更加简单。实验结果表明,该模型的性能和长距离调序能力都显著优于成分树到串模型和层次短语模型,是第一个性能超过当前主流模型水平的、基于源语言依存树的翻译模型。   2.翻译规则自动获取算法   为了自动获取以HDR片段为基础翻译规则表示方式,本文针对翻译规则的特点设计了新的翻译规则抽取算法。该算法由树标记、可接受HDR片段识别和翻译规则生成三个阶段组成,主要有以下两个特点:1)翻译规则生成过程中,从一个可接受HDR片段生成多种泛化形式的翻译规则,并使用开放词词性来约束翻译规则的生成。实验结果表明,开放词词性约束有助于提高翻译规则的判别能力,进而显著改善模型的翻译质量。2)使用子树一致性跨度来约束可接受HDR片段的识别。子树一致性跨度是根据依存树的特点定义的,是一种比路径转换模型使用的短语跨度更为宽松的约束。实验结果表明,使用子树一致性跨度有助于改善翻译质量。   3.解码算法   解码算法是基于自底向上chart-parsing算法设计的。由于采用了多种泛化形式的翻译规则表示方式,解码过程中需要解决的一个重要问题是:如何利用多类翻译规则进行解码,即翻译规则匹配问题。本文主要考察了两种翻译规则匹配策略:最优匹配策略,为不同类型的翻译规则赋以优先级顺序,仅使用最先匹配到的那类翻译规则进行翻译;完全匹配策略,使用所有可以匹配到的各种类型的翻译规则进行翻译。实验结果表明,使用完全匹配策略时,依存树到串模型表现出更好的性能。   4.引入短语的方法   作为一种基于语言学句法的模型,依存树到串模型擅长描述语言学中的组合现象,但是在处理非组合现象(如习惯用语或固定搭配)时存在不足。特别是依存树完全由词汇化元素构成,结构相对扁平,使用基于HDR片段的翻译规则表示时,会导致该模型的短语覆盖度比基于成分树的模型更低。为了缓解这一问题,本文针对依存树的特点,提出了三种引入短语的方法,即引入句法短语、泛化的句法短语和非句法短语。其中,泛化的句法短语通过对句法短语中的部分节点进行泛化处理得到,旨在扩大具有某些上下文环境的句法短语的适用性。非句法短语的引入旨在更好地处理习惯用语和固定搭配。实验结果表明,通过引入句法短语、泛化的句法短语和非句法短语,可以显著改善依存树到串模型的性能。
其他文献
互联网应用的高速增长为电信增值业务的发展带来了新的契机和挑战,如何借鉴互联网发展的先进经验,利用互联网开放的技术成为电信增值业务发展的重要课题。开放平台为互联网应用
在机器学习领域中,模式分类问题一直是研究主流。分类问题主要可以分为两大类:一个是多分类问题包括两类分类问题;另一类是单类分类问题。由于复杂度或代价的原因,在很多情况下
当前众多现场总线标准并存的局面,限制了用户对总线产品的选择,同时也制约了现场总线技术的进一步发展。很多现场总线设备生产商为了提升自身产品的开放性,纷纷推出与其它现场总
Web服务作为一种新兴的分布式计算模型,已经在电子商务、企业应用集成等领域扮演着越来越重要的角色。Web服务的真正价值在于通过服务组合使业务合作伙伴之间可以进行电子商务
近几年来,随着科学技术的飞速发展,智能手机在人们日常生活中的普及程度变得越来越高,扮演着举足轻重的角色。在目前主流的智能手机操作系统中,Android操作系统因为开源和性价比
无线传感器网络是一种综合了传感器技术、嵌入式技术、分布式信息技术以及无线通信技术等的新兴交叉型学科。他能够满足实施监控、感知以及自动采集数据处理传输等方面需求。
随着互联网和信息检索技术的发展,人们频繁的使用互联网搜索信息。互联网上所普及的在线百科词条与基于关键字匹配的检索技术的组合,一定程度上满足了人们获取信息的需求。为了
近年移动互联网发展迅速,在移动互联网中,手机终端又占据着非常重要的位置。然而现代智能机普遍存在一个问题,即电池消耗过快,相比以往非智能机的待机时间大大缩短,给人们的
基于物理的动画是通过数值求解物体运动的规律来模拟现实世界里的各种物理现象如流体的流动,固体的形变和破碎,流体和固体的相互作用等,近年来大量应用于影视娱乐、虚拟现实
数据是互联网企业最具价值的资产之一,是互联网企业日常运营、战略决策等几乎所有经营活动所依赖的、不可或缺的信息。如何能够通过数据采集、数据抽取、数据加工、数据分析和