面向统计机器翻译的双语平行语料自动选取技术的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:XIONGSHENG0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对统计机器翻译逐渐成为翻译系统主流的现状,影响统计机器翻译系统性能的主要因素除了解码的算法外,双语训练语料的质量也直接影响着统计机器翻译系统的性能。且随着网络的飞速发展,使得语料库的资源迅速扩大,同时导致系统的解码代价增加。不仅如此,语料的质量良莠不齐,出现了部分的噪音。针对这些现象,本文为解决这些问题的主要目标是获得高质量小规模的语料子集。首先,本文的主要思路是从句子质量评价与覆盖度因素两个方面选取高质量小规模的训练语料子集。对于质量评价,第一,本文提出了对于句对翻译的准确性和流畅性多个质量评价特征的计算方法,第二,综合全部质量评价的线性模型以及自动获取线性模型中权重的方法。实验证明,本文的质量评价方法可以有效地的区分句对的质量好坏,经过测试准确性可以达到84.92%。而后,本文提出覆盖度贡献因素对于语料选取中的作用以及影响,给出本文所用的基于短语的覆盖度计算方法,实验证明,覆盖度对于训练语料的训练结果是具有一定影响是,是语料选取中不可忽视的一部分。最后。本文结合质量评价等级以及覆盖度贡献因素两个方面提出一种选取小规模高质量训练语料子集的方法,通过实验证明本文方法的合理性以及有效性,对于噪声数据对统计机器翻译系能的具体影响还有待研究。最后本文的主要工作是为选取针对统计机器翻译系统的高质量小规模预料子集,进行了一系列的工作,例如,语料评价特征计算,语料人工打分,权重学习,综合评价,覆盖度贡献值的计算以及本文提出的语料选取的模型,在以后的工作中,对于双语平行语料选取的相关工作应向着对于统计机器翻译模型的适应性方向继续发展和改进。
其他文献
分析薄板件平面铣削加工变形的机理 ,介绍控制变形的工艺技术 ,简述高速切削对控制变形的效果
目的:利用正常肝细胞和肝癌细胞表面转铁蛋白受体以及亲和力的差异,用转铁蛋白修饰脂质体,使脂质体具有导向肝癌细胞的靶向性,分析其对肝癌细胞系的杀伤作用.方法:超声法制备
现代学校制度建设是实现教育现代化的必然选择,是我国由教育大国向教育强国迈进的必由之路。当前,在现代学校制度建设过程中面临着去行政化与行政干预的博弈、扩大学校办学自
随着粮食产量的不断提升,农用化肥的研发、销售、施用也在不断加强,但与此同时突显出的问题也越来越多,化肥的过量施用便是最突出的问题之一。过量施肥不仅造成肥料资源的浪
<正>出口一直是拉动浙江经济前行的主要动力之一。在出口产品中,浙江实现了从以轻纺产品为主向以机电产品为主的跨越性转变,机电产品出口规模迅速扩大,机电产品出口已成为全
核心竞争力是数字档案馆获得竞争优势的关键。本文从信息服务市场竞争的角度出发,阐释了数字档案馆核心竞争力的内涵,进而分析了数字档案馆核心竞争力的来源与形成机制,最后
介绍了应用焊接机器人进行摩托车JL-70车架组焊的自动化生产线,重点详细叙述了车架主管组焊工作站的工作情况.
周朴园一直是曹禺笔下一个颇有争议的人物。随着近年来文艺批评环境的逐渐宽松和人们审美情感的不断多元化,对周朴园的认识逐步趋于全面化、本质化、“人”化。笔者认为,作为
为了减少磨损给生产所带来的经济损失,利用电弧喷涂含TiB2的粉芯线材来制备含TiB2陶瓷的涂层,并对涂层的结合强度、硬度、抗热震性和耐磨粒磨损性能等进行了测试,利用金相显