短语统计机器翻译关键技术研究

来源 :东北大学 | 被引量 : 4次 | 上传用户:liubifeng1392
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是人们梦寐以求的翻译方式。机器翻译是指借助计算机自动完成语言翻译的过程。在目前所有的机器翻译方法中,统计机器翻译以其优异的翻译性能受到了极大的关注。在所有的统计机器翻译模型中,基于短语的统计机器翻译模型以其模型简单、鲁棒性高、翻译性能优异等诸多特点,成为目前研究与应用的重点。本文就基于短语的统计机器翻译模型中多项关键技术存在的问题进行了详细的探讨,提出了一系列优化方法。在基于短语的统计机器翻译模型中,短语翻译表是翻译过程中用到的核心部件,短语翻译表的主要作用在于解决机器翻译中的“择词”问题。目前,短语翻译表的构造过程有其自成一套的标准方法。短语翻译表构造的第一步为短语对抽取,传统的启发式短语对抽取方法从含有词对齐信息的双语平行句对中抽取所有与词对齐保持一致的短语对。如果对抽取的短语对长度不加以限制,那么传统的短语对抽取方法将生成一个非常庞大的短语对集合。本文针对目前短语对抽取算法存在的问题进行了详细的探讨,提出了一种基于组合的短语对抽取方法,有效的减小了短语翻译表的规模。本文方法与传统方法的不同之处在于,本文短语对抽取方法首先定义最小短语对集合,然后使用最小短语对集合组合得到一个包含更多上下文信息的短语对集合。在汉英翻译任务上的实验结果表明,与传统的短语对抽取方法相比,本文提出的组合两次的短语对抽取方法抽取的短语对集合的规模,比传统短语对集合减小44.3%,同时不降低翻译品质。在基于短语的统计机器翻译系统中,解码器是另一个核心部件。解码器即通常所说的翻译引擎。解码器的主要功能是使用翻译模型、调序模型、语言模型来完成翻译。CYK算法是本文解码器使用的核心算法。本文在对CYK算法进行深入分析的基础上,研究了一种立方剪枝优化技术。本文研究的立方剪枝优化技术有效的降低了CYK算法的时间和空间复杂度,在不降低翻译品质的前提下,极大的提高了翻译系统解码效率。通过对翻译结果的分析,发现在目前统计机器翻译模型的框架下,实词被删的现象非常严重。本文通过在对数-线性模型的解码框架下,设计四个对实词具有指示性的特征,有效的缓解了这一问题。在解码完成生成初始翻译结果之后,需要对初始翻译结果进行处理以生成人工可读的翻译结果,在机器翻译中,称之为后处理技术。本文对“汉英”翻译任务中的后处理技术进行了详细的探讨,在基于自左至右算法的解码框架下,研究了一种新的词汇大写还原算法。通过使用本文提出的算法,可快速、高质量的实现词汇大写还原操作。总体来说,本文的主要内容是对基于短语的统计机器翻译系统中的翻译模型、解码器、翻译后处理等关键技术进行深入讨论,同时提出有效的优化方法。
其他文献
最近几年,大规模多处理器系统在计算领域起到了越来越重要的作用。但是,随着处理单元的增多,系统部件出错的可能性也随之增加。为了得到系统的高可靠性和高可用性,系统级故障
网格系统的目标是实现大量异构资源的共享。由于网格资源具有动态性、异构性、分布性和自治性等特点,网格系统中资源分配已经成为了关键问题。经济学原理与传统的资源分配算
电子政务是指政府机构使用信息技术(比如互联网和移动计算),赋予政府部门以独特的能力,转变其与公民、企业、其他政府部门之间的关系。电子政务系统是使用Internet技术,向公
本文设计并实现了一个椭圆曲线密码引擎。整个系统分为协议模块、椭圆曲线运算模块、对称密码模块、数字摘要模块、密钥数据库模块、密钥导出模块和密钥管理模块七个部分。文
  本文就是从爬行虫入手,着重讨论爬行虫初始URLs的形成,如果初始URLs集是个性化的(根据用户的兴趣进行选择的),则搜索结果也必定具有用户个性化的特点。本文依此目标,就初始UR
随着无线通信、传感器技术、嵌入式应用及微电子技术的快速发展,人们可以很方便的获取周围所需的信息,为无线传感器网络的发展提供了广阔的前景。由于IEEE802.15.4标准协议具
随着信息安全越来越受到人们的重视,很多高校计算机系开设了信息安全专业,迫切需要一个安全产品实验平台。但是安全产品大多都是软硬结合的产品,配置复杂,很少在教学或培训中
本文分别从能量有效路由问题和移动性问题两个方面对移动自组网进行了研究。 本文对能量有效路由问题的研究。在对动态源路由协议深入研究的基础上,引入了节点的优先级机制
  首先本文以机器人足球比赛中三对三项目为研究对象,首先通过分析三对三项目中决策子系统需要解决的问题,决策子系统自身的特点以及设计时需要考虑的问题等诸多因素,设计了一
随着互联网的飞速的发展,网络安全的重要性越来越突出。如今,DoS攻击业已成为网络安全领域最为严重的问题,它利用众多受到入侵控制的主机,同时向受害者主机发起攻击,以达到消耗目