论文部分内容阅读
自然语言处理已历时三十年了,热潮莫过于机器翻译。机器翻译的热潮过去后,逐渐进入平静、现实的务实阶段。近期人们将目标定在资料整理、因特网上检索、摘要、过滤以及限定应用领域的人机对话、语言服务等方面。本文介绍汉语语音识别文本自动纠错的研究。
汉语语音识别技术己发展到一定阶段,但连续汉语语音识别的效果离实用还有一定差距,表现之一是识别文本含错多。
目前,学术界尚未明确提出语音识别文本的自动纠错技术。从形式上看,语音识别文本的自动纠错也可以看成是文本自动校对技术在语音输入方面的应用。文本自动校对技术研究汉语输入(键盘、OCR)的自动查错和纠错。但无论现象和原因,语音输入出错都比键盘、OCR复杂,语音识别错误的恢复绕不开对语音识别系统所用语言模型的研究。所以本质上,语音识别文本的自动纠错属于语音识别后处理过程。本文虽题为文本纠错,但不拘泥于文本层面,而是深入到语音识别系统内部,从语音识别系统所用语言模型的角度研究出错和纠错。本文的工作,也围绕语言模型和文本校对两条主线展开。
本文以主流产品——IBM公司的ViaVoice98中文连续语音听写系统和ViaVoiceTelephony电话语音识别系统作为研究系统实例。前者用于通用领域文本的输入,后者用于限定领域(交通查询)的信息提取。考虑到目标的难度,用特定人和新闻稿测试前者,以获得较高的文本正确率和纠错起点。
通用领域句式复杂多变,不深入语音识别系统内部寻找规律的话很难有所作为。ViaVoice98单纯使用3元词法模型,忽略了词性和语义搭配信息。本文提出的后处理方法,通过大规模语料训练设计出增强的语言模型,利用ViaVoice系统语音识别时生成的中间结果WordLattice(词网格)作为工作起点,用动态规划法生成NBest候选句,并以该增强的语言模型评优。利用WordLattice既能充分利用语音识别系统的中间信息,又避免了介入语音识别系统内部形成干扰。提出的语言模型针对ViaVoice所用语言模型的不足而设计,保证了纠错的效果。引入词性类和语义类的概念,回避了含错文本的词性和语义兼类排歧问题。
限定领域句式相对简单,出错也较有规律,但统计法所必需的大规模训练语料不易获取。本文就上海市内交通电话查询特定领域用规则法处理纠错。通过总结识别文本中的出错规律,定义了相应的用于查错和纠错的词形、语义和语用规则。识别文本经切分、语义标注,逐次检查词形、语义标记搭配和语用信息,一俟匹配查错规则就激发纠错。针对识别文本含错严重的现状,该法更多地依赖对出错现象的分析和对领域信息的应用。在本实验室开发的ShanghaiQuest(上海市电话语音交通查询系统)中使用该法后,大约半数的识别错误能够被自动纠正,显著地支持了后续理解。
由于汉语查错纠错问题的特殊性,实际系统仅依赖基本方法尚难达到实用。在本文的最后,提出了纠错系统实用化的设计原则,并针对本文中两个系统实例的不足,给出了进一步改进的侧重点和方法。