基于形态句法信息的短语翻译模型研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:luowzh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计机器翻译是自然语言处理研究热点之一,本文研究如何利用句法信息和形态信息构造短语翻译模型,以提高短语翻译系统的性能。句法分析是自然语言处理的关键问题之一,同时也是本文所构造的翻译模型的基础。本文构建了基于统计的汉语依存句法分析器,提取了由该分析器得到的句法信息,阐述了句法特征和语言形态特征提取方法。在此基础上,构造了基于形态句法信息的翻译模型,实现了一个基于短语的汉蒙翻译系统,并给出了句法分析器与翻译系统的实验结果。本研究工作的主要贡献如下:1、句法分析器的模型设计句法分析是自然语言处理的基础工作之一,如何选取句法特征和降低搜索时间复杂度是进行句法分析的关键问题,本文提出利用生成树算法结合概率配价理论方法构造句法分析器,实现了MIRA训练算法。实验表明,此设计方法提高了汉语依存句法分析器准确率。2、句法与语言形态信息提取当前短语统计翻译模型仍然是主流,但此翻译模型对语言信息(句法、语义、形态等)没有较好的融合能力。本文提出将句法树信息和形态信息以标注方式融到每个词或者短语中,在翻译模型构造上实现了规则与统计相结合和词、短语、句法三层面信息的融合,有利于提高译文质量。3、翻译模型构造方法由于句法与形态信息的加入,使Factors数量增多,原有Factored模型会导致数据稀疏,模型训练也会出现过度拟合现象。本文采用对数选项池方法构造了LOP-Factored模型,并实现了参数调整,找到词,词性、句法、形态等各个Factor之间的平衡点,实现模型优化。在汉蒙统计机器翻译对比实验中,BLEU评分比传统短语统计翻译模型有明显提高。
其他文献
质子交换膜燃料电池(Proton Exchange Membrane Fuel Cell,PEMFC)是一个密封的系统,它内部的湿度对于燃料电池的工作效率和使用寿命十分重要。监测并控制燃料电池内部的湿度值,能提高系统性能、减少各单片电池在非正常情况下损坏所造成的经济损失。针对这一问题,本文开展PEM燃料电池系统湿度测量研究并设计湿度控制系统,主要研究内容如下:首先设计了一种燃料电池内阻在线测试系统
本文主要研究混合动态系统中非常重要的一类切换系统,它是由几个连续时间子系统或离散时间子系统及作用在其中的切换规则构成的。由于切换的存在使得系统的动态特性变得很复
近年来,全球能源的日益紧张导致可再生能源的快速发展,其中光伏产业发展尤为迅速,致使太阳能电池原料—多晶硅的严重短缺,这个问题严重制约着我国光伏产业的发展,目前国内许多太阳能电池厂家处于半停产状态,无原料可生产,另一方面我国多晶硅原料几乎全部靠进口,国外厂家哄抬原料价格,致使多晶硅的价格一路攀升,导致国内生产厂家只能赚取微薄的加工利润。目前,太阳能级多晶硅制备的主流技术为改良西门子技术,但其生产技术
继电保护测试仪是专门用于对继电保护装置的定值进行校验的设备,目前国内外还没有专门对继电保护测试仪输出的信号进行校验的设备。本文提出了一种采用高速数据采集卡和虚拟仪器技术相结合的微机型继电保护测试仪故障信号分析装置的设计方案,讨论了常用电气参数的测量算法、故障类型判断算法及小波降噪算法等。实现对继电保护测试仪输出的各种信号的采集、处理和分析,从而给测试仪的性能给出一个客观的评价。装置的硬件设计采用了
蚁群算法是一种随机搜索算法,与其它模拟进化优化算法一样,通过由候选解组成的群体的进化过程来寻求最优解,它具有许多优良性质和实际应用价值。本文介绍了蚁群算法基本模型
人类在多年冻土区修筑铁路已有100多年的历史,但由于冻土这种土体介质对温度的敏感性,冻胀、融沉等病害始终影响着冻土区铁路的正常运行。因此,对冻土区铁路工程进行长期、全
混杂系统是连续动态系统和离散动态系统相互耦合与相互作用而形成的一类复杂动态系统,它通常表现为在一定时间区间或空间内具有连续系统特征,而在另外一些时刻或空间又具有离散
一般的嵌入式系统在主程序执行之前都需要执行一些初始化的过程以创造嵌入式程序运行的环境,尤其是一些高级的嵌入式系统,由于核心芯片使用内存映射、内存保护等机制以及编程使
矩阵变换器属于交交直接变换,省去了中间直流环节,能量可双向流动,是一种新型结构的“绿色”功率变换器。由能双向导通的双向开关组成,能同时提供正弦变化的输入电流和输出电压,可
近些年来随着智能化生活的普及,国内外关于声源定位技术的研究越来越多,它在民用和军用方面都有着不错的应用前景。但是国内关于此项技术的研究大多是偏向民用方面,在军用方