论文部分内容阅读
针对统计机器翻译逐渐成为翻译系统主流的现状,影响统计机器翻译系统性能的主要因素除了解码的算法外,双语训练语料的质量也直接影响着统计机器翻译系统的性能。且随着网络的飞速发展,使得语料库的资源迅速扩大,同时导致系统的解码代价增加。不仅如此,语料的质量良莠不齐,出现了部分的噪音。针对这些现象,本文为解决这些问题的主要目标是获得高质量小规模的语料子集。首先,本文的主要思路是从句子质量评价与覆盖度因素两个方面选取高质量小规模的训练语料子集。对于质量评价,第一,本文提出了对于句对翻译的准确性和流畅性多个质量评价特征的计算方法,第二,综合全部质量评价的线性模型以及自动获取线性模型中权重的方法。实验证明,本文的质量评价方法可以有效地的区分句对的质量好坏,经过测试准确性可以达到84.92%。而后,本文提出覆盖度贡献因素对于语料选取中的作用以及影响,给出本文所用的基于短语的覆盖度计算方法,实验证明,覆盖度对于训练语料的训练结果是具有一定影响是,是语料选取中不可忽视的一部分。最后。本文结合质量评价等级以及覆盖度贡献因素两个方面提出一种选取小规模高质量训练语料子集的方法,通过实验证明本文方法的合理性以及有效性,对于噪声数据对统计机器翻译系能的具体影响还有待研究。最后本文的主要工作是为选取针对统计机器翻译系统的高质量小规模预料子集,进行了一系列的工作,例如,语料评价特征计算,语料人工打分,权重学习,综合评价,覆盖度贡献值的计算以及本文提出的语料选取的模型,在以后的工作中,对于双语平行语料选取的相关工作应向着对于统计机器翻译模型的适应性方向继续发展和改进。