基于双语语料库对齐的翻译知识自动获取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:D243435dsfsdfqwe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文从如下几个方面进行了研究:1.研究了英汉双语语料库词汇对齐技术.分析了词汇对齐需要解决的关键问题.提出了N-gram模型和迭代策略相结合的统计词汇对齐方法,有效地解决了间接相关问题,在提高统计正确率的同时实现了多词单元对应及领域新词、术语翻译的自动获取.在此基础上,综合利用词典和语言学知识实现了基于混合策略的英汉双语语料库词汇对齐.2.研究了英汉双语语料库结构对齐技术.探讨了双语语料库结构对齐的难点,提出了一种单语句法分析指导的英汉双语语料库结构对齐方法.以统计的双语语言模型-反向转换文法为基础,通过将英语句法分析知识融入到双语模型中,实现英汉双语的结构对齐.该方法充分利用现有的英语句法分析研究成果,避开了汉语句法分析的难题,同时保证了双语结构对齐的语法合理性,有效地提高了结构对齐的正确率.3.在词汇对齐和结构对齐基础上研究了翻译知识的自动获取方法.利用词汇对齐结果对现有的翻译词典进行扩充和完善,增加了新词和译文,并获取了初步的译文选择知识.利用结构对齐结果实现了短语翻译实例的自动获取.提出了基于双语语料库的结构翻译模板和译文选择模板自动获取方法,研究了基于语言学知识和错误驱动的机器学习算法的模板冲突消解策略.提出了基于双语结构对齐的汉语句法分析知识自动获取方法,为汉语句法分析的研究提供了一个崭新的思路.4.建立了基于双语语料库的翻译知识自动获取平台,利用该平台获取的翻译知识实现了一个英汉机器翻译原型系统.探讨了翻译系统的基本框架、翻译流程以及翻译过程中自动获取知识的调用策略.通过对机器翻译结果的评价验证了获取的知识的有效性和该文知识获取方案的可行性.
其他文献
利用快速成形技术制造功能梯度材料零件是当前的一个热点问题。功能梯度材料零件建模和分层算法设计,是解决这一问题的关键环节。从CAD和CAM的角度来说,功能梯度材料零件模型
软件日趋复杂,大量软件高度可配置,给软件测试带来了极大的挑战。组合测试是一种高效的软件测试方法,能有效检查出由参数相互作用而导致的软件故障。但是在实际应用过程中,约
网络技术的迅速发展在给人们的生活带来巨大方便的同时,也带来了非常严峻的安全问题。在虚拟的网络世界里,利用木马窃取机密信息的黑客入侵行为日益增多,给用户和企业的利益、甚
本文将易于并行化的插值法用于Dixon结式的构造中,从而使两种方法有机结合起来,进一步提高了符号计算方法解决问题的规模和效率.主要工作和贡献有:①根据Dixon多项式的特点,
本文首先介绍标准移动IPv6(MIPv6,Moblie IPv6)的基本原理和切换过程,当移动节点在网络间越区切换时,由于IP层的切换容易产生时延和数据包的丢失,引起通信质量的下降或通信中
为了维护计算机系统的安全,一般通过设置用户口令进行身份鉴别,防止他人冒名顶替。口令鉴别的主要弱点在于一旦被窃,冒名顶替者就可以轻而易举地进行非法活动。击键特征的研
本文面向工程应用提出了一种新颖的基于退化隐马尔柯夫模型(Degraded Hidden Markov Model)的印刷体文字识别方法。 由于印刷体文字的字形相对固定,因此以往通常采用结构
  在信息技术领域,随着计算技术、存储技术和网络技术的发展,促使信息技术与天文研究相结合,促进了虚拟天文台(VO)的研究工作。虚拟天文台首先要实现的是天文数据的无缝透明访
学位
  本文首次提出将粗糙集的属性约简与支持向量机结合处理中文网页的分类问题,具有如下独特优势:  支持向量机处理小样本分类时,能得到较好的效果,但应用于中文网页分类时,由于