基于短语的蒙汉统计机器翻译研究

被引量 : 0次 | 上传用户:Melanzpl1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机性能的逐渐提高,统计方法在机器翻译中得到了广泛的应用。统计机器翻译方法主要有基于词的翻译模型、基于短语的翻译模型和基于句法的翻译模型。基于短语的翻译模型比基于词的翻译模型在翻译质量上提高了很多,同时基于短语的翻译模型比基于句法的翻译模型具有模型简单、训练速度快、解码效率高等优势。因此基于短语的机器翻译方法逐渐成为了统计机器翻译领域的研究热点。首先,本文阐述了统计机器翻译的相关理论,并结合蒙古文信息处理技术的现状,利用国际现有开源软件搭建了一个基于短语的蒙汉统计机器翻译系统,该系统将蒙古语文本自动翻译成汉语文本。其次,本文建立了开发集和测试集,并通过收集和建立这两种途径获得一定规模的蒙汉平行语料库。在此基础上对蒙汉统计机器翻译系统做了一些实验。其中以规模为8万对句的蒙汉平行语料库作为翻译模型的训练语料,将规模为400对句的测试语料进行开放测试之后得到的评测结果BLEU和NIST值分别为0.2353和5.1859。通过实验结果发现,与国际先进系统相比,翻译结果的差距较大,研究中仍存在一些问题,比如:译文中存在未登陆词,语序混乱及语法、语义歧义等问题。最后,针对上述问题,为提高蒙汉机器翻译的性能,本文将蒙古语言的词性信息引入到统计模型中进行了试验。为验证蒙古语言的词性信息能否提高蒙汉机器翻译的性能,本文对添加蒙古语言的词性标注信息前后的蒙汉机器翻译系统分别做了实验。实验结果表明,引入蒙古语言的词性信息之后,蒙汉机器翻译系统的基准(baseline)实验结果BLEU和NIST值均提高了0.0299和0.2236。而融合词性标注信息的翻译模型在一定程度上解决了由于双语训练语料规模不够大而导致的未登录词和语义歧义问题。总的来说,在蒙汉机器翻译中应用语言学知识能够有效改善蒙汉机器翻译系统的性能。
其他文献
近年来,我省多部门、多领域、多层次密集出台了一系列科技创新政策,构成了实施创新驱动发展顶层设计文件。对我省科技创新政策的评价研究有助于不断优化科技政策,对政策体系
中国加入WTO后,自2005年全面开放金融保险市场,外资保险公司进入我国市场,外资保险公司受到的限制逐步减少。一批境外寿险公司与中粮集团、五矿集团、中海油、海尔等大型国有
近几年,随着国家卫生部制度的创新,公立医院的市场竞争在逐渐地发展,为了充分调动医院医务人员的工作积极性,公立医院开启了绩效工资改革。薪酬绩效的工资制度作为医疗机构合
尽管美国宪法第一宪法修正案为美国确立了严格的政教分离原则,从法律上明确规定政府和宗教之间没有任何关系。然而,在现实生活中,宗教却屡屡冲破法律上的束缚,将影响渗透到美
词语搭配在语言学习、语言教学、乃至语言研究方面的重要性不言而喻。近几年随着语料库语言学的兴起和发展,基于语料库的词语搭配研究不胜枚举,基于中国学习者英语语料库(CLE
本研究为国家自然科学基金项目资助完成(30872062)。本文以东北林业大学帽儿山实验林场基地引种栽植的北陵(Iris typhifolia Kitag.)、燕子花(I. laevigata Fisch)、黄菖蒲(I
梭罗是19世纪美国文艺复兴时期的作家和思想家,对美国文学的影响极为深远,20世纪以来其声誉与日俱增,已演变为世界性的文化现象。但关于梭罗研究,从取得的研究成果来看,还有
本研究在整理了科学探究和教科书编写相关理论的基础上确立了分析、比较研究的基本框架,设定了统计分析的维度指标,并以此为依据对三套教材中的科学探究内容进行了定量统计分
随着新课程改革进程的逐步深入,教师课堂教学行为迎来了严峻的挑战,教育教学领域对有效课堂教学行为也更加关注。长期以来,我国中小学教师并未从“以学生为本”的教育理念出
首次公开发行(IPO)股票的长期弱势是IPO研究领域的三大热点问题之一,我国对该问题的研究直到2000年才开始,相关理论还很欠缺,因此很多理论需要完善,很多空白需要填补。而且随