依存树到串统计机器翻译模型研究

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：TIGERKING2009

【摘要】

：

统计机器翻译是近年来自然语言处理领域最受关注的研究热点之一,具有重要的学术研究价值和广阔的应用前景。目前,统计机器翻译已经经历了基于词的模型、基于短语的模型、基于

【作者】

：

谢军

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2012年期

【关键词】

：

统计机器翻译依存树非句法短语串模型解码算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

统计机器翻译是近年来自然语言处理领域最受关注的研究热点之一,具有重要的学术研究价值和广阔的应用前景。目前,统计机器翻译已经经历了基于词的模型、基于短语的模型、基于句法的模型的演进过程,正向着利用语义知识的模型迈进。　　依存树旨在描述句子或短语各个成分的语法关系,兼有句法知识和语义知识,被视为语言学从句法表示向语义表示的一种过渡形式。近年来,如何有效利用依存树所包含的句法知识和语义知识来构建翻译模型的研究日益受到关注,并成为统计机器翻译新的研究热点。　　本文旨在探索有效地利用依存树所包含的句法知识和语义知识来构建依存树到串模型的方法,重点对依存树到串翻译模型设计、翻译规则自动获取算法、解码算法及引入短语的方法等进行了研究,主要创新点如下:　　 1.翻译模型设计　　基于依存树中依存关系的确定准则,本文提出了一种新的依存树分解方法,该方法以中心词-依存节点(head-dependents relation,HDR,)片段作为基本结构单元、以替换作为基本操作。其中,HDR片段是由中心词及其所有依存节点组成的依存树片段。基于这种树分解方式,本文将翻译规则表示为:源端为泛化的HDR片段,目标端为目标语言词语和变量组成的串,提出了一种新的依存树到串模型。与现有的基于源语言依存树的模型相比,该模型不再使用“插入”操作,取消了现有模型必需的启发式或调序模型,模型设计更加简单。实验结果表明,该模型的性能和长距离调序能力都显著优于成分树到串模型和层次短语模型,是第一个性能超过当前主流模型水平的、基于源语言依存树的翻译模型。　　 2.翻译规则自动获取算法　　为了自动获取以HDR片段为基础翻译规则表示方式,本文针对翻译规则的特点设计了新的翻译规则抽取算法。该算法由树标记、可接受HDR片段识别和翻译规则生成三个阶段组成,主要有以下两个特点:1)翻译规则生成过程中,从一个可接受HDR片段生成多种泛化形式的翻译规则,并使用开放词词性来约束翻译规则的生成。实验结果表明,开放词词性约束有助于提高翻译规则的判别能力,进而显著改善模型的翻译质量。2)使用子树一致性跨度来约束可接受HDR片段的识别。子树一致性跨度是根据依存树的特点定义的,是一种比路径转换模型使用的短语跨度更为宽松的约束。实验结果表明,使用子树一致性跨度有助于改善翻译质量。　　 3.解码算法　　解码算法是基于自底向上chart-parsing算法设计的。由于采用了多种泛化形式的翻译规则表示方式,解码过程中需要解决的一个重要问题是:如何利用多类翻译规则进行解码,即翻译规则匹配问题。本文主要考察了两种翻译规则匹配策略:最优匹配策略,为不同类型的翻译规则赋以优先级顺序,仅使用最先匹配到的那类翻译规则进行翻译;完全匹配策略,使用所有可以匹配到的各种类型的翻译规则进行翻译。实验结果表明,使用完全匹配策略时,依存树到串模型表现出更好的性能。　　 4.引入短语的方法　　作为一种基于语言学句法的模型,依存树到串模型擅长描述语言学中的组合现象,但是在处理非组合现象(如习惯用语或固定搭配)时存在不足。特别是依存树完全由词汇化元素构成,结构相对扁平,使用基于HDR片段的翻译规则表示时,会导致该模型的短语覆盖度比基于成分树的模型更低。为了缓解这一问题,本文针对依存树的特点,提出了三种引入短语的方法,即引入句法短语、泛化的句法短语和非句法短语。其中,泛化的句法短语通过对句法短语中的部分节点进行泛化处理得到,旨在扩大具有某些上下文环境的句法短语的适用性。非句法短语的引入旨在更好地处理习惯用语和固定搭配。实验结果表明,通过引入句法短语、泛化的句法短语和非句法短语,可以显著改善依存树到串模型的性能。

其他文献

电信能力开放平台鉴权系统的设计与实现

互联网应用的高速增长为电信增值业务的发展带来了新的契机和挑战，如何借鉴互联网发展的先进经验，利用互联网开放的技术成为电信增值业务发展的重要课题。开放平台为互联网应用

学位

开放平台鉴权系统电信增值业务移动互联网业务能力

基于边界的模糊支持向量数据描述研究

在机器学习领域中，模式分类问题一直是研究主流。分类问题主要可以分为两大类:一个是多分类问题包括两类分类问题;另一类是单类分类问题。由于复杂度或代价的原因，在很多情况下

学位

单类分类支持向量数据描述模糊加权处理分类器设计模式识别

基于ARM的NCSF总线网关的设计与实现

当前众多现场总线标准并存的局面，限制了用户对总线产品的选择，同时也制约了现场总线技术的进一步发展。很多现场总线设备生产商为了提升自身产品的开放性，纷纷推出与其它现场总

学位

数控同步现场总线网关模型交互通信ARM处理器技术规范

基于编排规范的Web服务相符性测试

Web服务作为一种新兴的分布式计算模型，已经在电子商务、企业应用集成等领域扮演着越来越重要的角色。Web服务的真正价值在于通过服务组合使业务合作伙伴之间可以进行电子商务

学位

Web服务编排规范相符性测试编排场景

基于权限和API特征的Android恶意App检测方法研究

近几年来，随着科学技术的飞速发展，智能手机在人们日常生活中的普及程度变得越来越高，扮演着举足轻重的角色。在目前主流的智能手机操作系统中，Android操作系统因为开源和性价比

学位

Android系统恶意软件检测方法特征提取权限机制

抢占式SMAC协议研究

无线传感器网络是一种综合了传感器技术、嵌入式技术、分布式信息技术以及无线通信技术等的新兴交叉型学科。他能够满足实施监控、感知以及自动采集数据处理传输等方面需求。

学位

无线传感器网络介质访问控制协议能源有效性抢占式算法

基于本体的百科词条查询系统的设计与实现

随着互联网和信息检索技术的发展，人们频繁的使用互联网搜索信息。互联网上所普及的在线百科词条与基于关键字匹配的检索技术的组合，一定程度上满足了人们获取信息的需求。为了

学位

本体查询百科词条查询系统自然语言问句信息检索

基于Android的智能电池管理软件的设计与实现

近年移动互联网发展迅速,在移动互联网中,手机终端又占据着非常重要的位置。然而现代智能机普遍存在一个问题,即电池消耗过快,相比以往非智能机的待机时间大大缩短,给人们的

学位

移动互联网安卓系统管理启发式电量节省

基于无网格的物理动画方法研究

基于物理的动画是通过数值求解物体运动的规律来模拟现实世界里的各种物理现象如流体的流动,固体的形变和破碎,流体和固体的相互作用等,近年来大量应用于影视娱乐、虚拟现实

学位

无网格方法物理动画刚体破碎流固耦合

新兴互联网企业数据解决方案研究

数据是互联网企业最具价值的资产之一，是互联网企业日常运营、战略决策等几乎所有经营活动所依赖的、不可或缺的信息。如何能够通过数据采集、数据抽取、数据加工、数据分析和

学位

数据处理数据仓库商务智能互联网企业

依存树到串统计机器翻译模型研究

其他学术论文