“ちょっと”与独词句的机器翻译

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:Robert_1967
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:机器翻译是对人工翻译的模拟。但是由于不同语言之间历史文化、风俗习惯等因素存在固有差异,所以相同的文字时常在不同环境下表达的意义不同,这使得机器翻译实现十分困难。 独词句是语言学上的一种特殊的句型。独词句需要根据上下文环境来判断它的“句义”,而不仅仅是它的“词义”。然而目前大多数的计算机翻译软件,对独词句的处理都存在缺陷。本文希望能从语言学的角度,对翻译系统处理独词句提出更为合理的解决方法。
  关键词:机器翻译;独词句;词义;句义
  中图分类号:TP305 文献标识码:A文章编号:1009-3044(2007)03-10788-02
  
  1 引言
  
  机器翻译研究的意义是不言而喻的,它有着重大的社会、经济价值。在当今世界,随着信息的急剧增加,国际交流的日趋频繁,尤其是国际互联网络的逐渐普及,机器翻译的潜在需求越来越大。
  机器翻译研究同时又是一项艰巨的研究课题。自1954年美国乔治顿大学进行第一次试验以来,机器翻译已经发展了五十余年,经历了几起几落的曲折历程,人们对它的评价毁誉参半。自20世纪40年代电子计算机诞生之日起,人类就开始了把计算机应用于语言翻译的探索。之后的许多年,机器翻译系统主要是基于双语字典进行直接翻译,几乎没有什么细致的句法结构分析。直到20世纪80年代,计算语言学的发展产生了更加复杂的方法,一些机器翻译系统采用了间接方法进行翻译。在这种方法中,源语言文本被分析转换成某种意义上的抽象表达形式,随后利用一些程序,通过识别词结构(词法分析)和句子结构(句法分析)解决语义上的歧义问题。句法分析模块通常包含识别多义词的模块和识别正确语义关系的模块。人们希望这种抽象表达形式是无歧义的,并为生成一个或多个目标语言提供根据。其中有一种方法将抽象表达设计为一种与具体语种无关的"中间语言(metalanguage)",它可以作为许多自然语言的中介。这样,翻译就分成两个阶段:从源语言到中间语言,从中间语言到目标语言。
  然而令人遗憾的是,无论是中英互译还是中日互译的机器翻译软件生成的翻译句子时常会令人啼笑皆非。本文就是希望通过语言学的理论分析,来探讨日语“ちょっと”这个独词句在机器翻译中所遇到的麻烦以及我们需要思考的问题。
  
  2 ちょっと该怎么翻译
  
  時間があれば行きたいですが。ちょっと。
  我们将这段话输入到中、外两个在线机器翻译软件里,得出的翻译结果如下例1所示。
  例1:
  显然,两个机器翻译软件翻译出来的结果都有很大的问题。“ちょっと。”在这里是一个语言学上所谓的“独词句”,表达一种委婉的否定。独词句是指非主谓句中由一个词直接构成的句子。 这种独词句大量存在于我们的日常语言之中,但是上述两种在线机器翻译软件在翻译这句话的时候都忽略了语言中的这种现象。 “One-word sentences,in which a single word comprises a complete sentence. (R.H.Robins)”(独词句是一个词表达一个完整的句子。) “The fact that the contribution of some words is partly that of reference does not make reference the same as the whole of meaning;and it is not to be assumed that the meaning of a word when it constitutes a one-word sentence is the same as its meaning when it forms part of a larger sentence. (R.H.Robins)” [1] (事实上一些词并不能当成它相同的词义来看,我们不能认为一个词当它作为独词句的时候还能表达与它在长句子中相同的意思。)语言学家Robins教授在1989年的著作中就指出了:独词句表达的不是一个词的意思,应当是一个完整句子的句义。也就是说,研究或者翻译独词句应当从句子的层次来探讨,而不是从词的层次来分析。所以机器翻译在把独词句当成“词”来翻译的时候就犯了致命的错误,因此也就难免产生歧义。
  
  3 “ちょっと”与浅层句法分析
  
  计算机在处理语言翻譯的时候通常采取浅层句法分析。
  “浅层句法分析(shallow parsing),也叫部分句法分析(partial parsing)或语块分析(chunk parsing),是近年来自然语言处理领域出现的一种新的语言处理策略。它是与完全句法分析相对的,完全句法分析要求通过一系列分析过程,最终得到句子的完整的句法树。而浅层句法分析则不要求得到完全的句法分析树,它只要求识别其中的某些结构相对简单的成分,如非递归的名词短语、动词短语等。这些识别出来的结构通常被称作语块(chunk)。”[2]
  比如:
  時間があれば行きたいです。
  分成语块就是:
  時間が/あれば/行きたい/です/
  (依附关系)(依附关系)
  浅层句法分析的结果并不是一棵完整的句法树,但各个语块是完整句法树的一个子图(subgraph),只要加上语块之间的依附关系(attachment),就可以构成完整的句法树。所以浅层句法分析将句法分析分解为两个子任务:(1)语块的识别和分析;(2)语块之间的依附关系分析。浅层句法分析的主要任务是语块的识别和分析。这样就使句法分析的任务在某种程度上得到简化,同时也利于句法分析技术在大规模真实文本处理系统中迅速得到利用。句法分析的方法基本上可以分成两类:基于统计的方法和基于规则的方法。当然也可以采用规则和统计相结合的混合方法。
  统计方法认为翻译问题也是一个噪音信道问题,如图1。
  图1
  “可以认为,一种语言S(信道意义上的输入,翻译意义上的目标语言)由于经过了一个噪音信道而发生了扭曲畸变,从而在信道的另一端呈现为另外一种语言T(信道意义上的输出,翻译意义上的源语言),翻译问题实际上就是如何根据观察到的T,恢复最为可能的S的问题。用Pr(S|T)表示T译成S的概率,那么翻译问题就成为:在观察到T的前提下,寻找一个S,使得Pr(S|T)取最大值的问题。 Pr(t1|s1)被称为翻译概率(translation probability),表示单词译成单词的概率。” [3]
  也就是说,在计算机软件遇到上例所谈到的“ちょっと”的时候,首先是运用浅层句法分析确定“ちょっと”前后没有依附关系的语块(是一个词单独构成的“独词句”),然后通过统计的方法计算出这个词被翻译成“稍微、少许、一点”的概率很大,于是由“S”到“T”得出了上述例子中的翻译。
  笔者认为独词句用浅层句法分析的方法很难得到正确的翻译。比如例2。
  例2:
  其实每一个实词都可以成为一个独词句,而机器翻译通常情况下没有考虑一个词作为一句话的译法。
  因此笔者认为也有必要在机器翻译系统中加入对每个实词作为独词句的含义统计,比如“ご飯。”作为独词句的时候翻译成“吃饭啦”的概率显然要大于“饭”的概率。借此也可以有效提高对独词句翻译的正确率。
  
  4 独词句与语义分类
  
其他文献
摘要:本文通过对电子行业制造商特点的分析,提出了一套适用于该行业的供应商评 价指标体系。同时将层次分析法和灰色关联理论相结合,提出了一种新的供应商评价方法。通过实例分析,说明该方法直观可靠,是一个可行的供应商评价方法。  关键词:电子制造;供应商;层次分析法;灰色关联度分析  中图分类号:TP311文献标识码:A 文章编号:1009-3044(2007)03-10776-01    1 引言   
实时性是嵌入式应用中一个重要的指标,而优先级翻转是影响系统实时性的一个重要因素.可剥夺型内核中,任务以独占方式使用共享资源时,将出现低优先级任务先于高优先级任务运行
植物措施是水土流失防治措施的重要组成部分,它具有投入少、见效快、生态效益好等优点,越来越被人们重视与采纳.鸟山矿井及选煤厂水土保持植物防护措施是针对不同的防治分区,