汉语语音识别文本的自动纠错研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wx418854188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理已历时三十年了,热潮莫过于机器翻译。机器翻译的热潮过去后,逐渐进入平静、现实的务实阶段。近期人们将目标定在资料整理、因特网上检索、摘要、过滤以及限定应用领域的人机对话、语言服务等方面。本文介绍汉语语音识别文本自动纠错的研究。 汉语语音识别技术己发展到一定阶段,但连续汉语语音识别的效果离实用还有一定差距,表现之一是识别文本含错多。 目前,学术界尚未明确提出语音识别文本的自动纠错技术。从形式上看,语音识别文本的自动纠错也可以看成是文本自动校对技术在语音输入方面的应用。文本自动校对技术研究汉语输入(键盘、OCR)的自动查错和纠错。但无论现象和原因,语音输入出错都比键盘、OCR复杂,语音识别错误的恢复绕不开对语音识别系统所用语言模型的研究。所以本质上,语音识别文本的自动纠错属于语音识别后处理过程。本文虽题为文本纠错,但不拘泥于文本层面,而是深入到语音识别系统内部,从语音识别系统所用语言模型的角度研究出错和纠错。本文的工作,也围绕语言模型和文本校对两条主线展开。 本文以主流产品——IBM公司的ViaVoice98中文连续语音听写系统和ViaVoiceTelephony电话语音识别系统作为研究系统实例。前者用于通用领域文本的输入,后者用于限定领域(交通查询)的信息提取。考虑到目标的难度,用特定人和新闻稿测试前者,以获得较高的文本正确率和纠错起点。 通用领域句式复杂多变,不深入语音识别系统内部寻找规律的话很难有所作为。ViaVoice98单纯使用3元词法模型,忽略了词性和语义搭配信息。本文提出的后处理方法,通过大规模语料训练设计出增强的语言模型,利用ViaVoice系统语音识别时生成的中间结果WordLattice(词网格)作为工作起点,用动态规划法生成NBest候选句,并以该增强的语言模型评优。利用WordLattice既能充分利用语音识别系统的中间信息,又避免了介入语音识别系统内部形成干扰。提出的语言模型针对ViaVoice所用语言模型的不足而设计,保证了纠错的效果。引入词性类和语义类的概念,回避了含错文本的词性和语义兼类排歧问题。 限定领域句式相对简单,出错也较有规律,但统计法所必需的大规模训练语料不易获取。本文就上海市内交通电话查询特定领域用规则法处理纠错。通过总结识别文本中的出错规律,定义了相应的用于查错和纠错的词形、语义和语用规则。识别文本经切分、语义标注,逐次检查词形、语义标记搭配和语用信息,一俟匹配查错规则就激发纠错。针对识别文本含错严重的现状,该法更多地依赖对出错现象的分析和对领域信息的应用。在本实验室开发的ShanghaiQuest(上海市电话语音交通查询系统)中使用该法后,大约半数的识别错误能够被自动纠正,显著地支持了后续理解。 由于汉语查错纠错问题的特殊性,实际系统仅依赖基本方法尚难达到实用。在本文的最后,提出了纠错系统实用化的设计原则,并针对本文中两个系统实例的不足,给出了进一步改进的侧重点和方法。
其他文献
随着基于地理位置信息的服务技术的发展,与此相关的服务也在迅速发展,如基于位置信息的广告推送、外出旅游的路径导航、交通堵塞车辆管理等。这些服务普遍基于对未来位置的预测
数据挖掘是近年来数据库领域中出现的一个新兴研究热点,它是从大量数据中获取知识。进行数据挖掘的方法很多,粗集方法便是其中的主要方法之一。本文主要研究基于粗集属性约简的
生物数据的注释一直是生物学家的一个具有挑战性的任务,其中对RNA序列编码能力的分类是十分关键的一步。随着大规模高通量测序的应用,产生的RNA序列数据量的急剧增加,对高效和精
该文研究的是强噪音下基于小波变换的语音增强.为了最大限度的去除噪声,增加语音的可懂度,将语音检测与语音增强有机地结合起来.由语音检测判断出输入信号的噪声段与语音段,
Web服务(Web Service)以其特有的松散耦合的分布式结构,完整的封装性,协议的规范性,以及高度可集成性和互操作性等特点,正逐步受到业界的广泛接受和支持;各种基于Web服务的应用架
企业集成发展到今天,仍然存在着一些诸如流程重组与快速集成等迫切需要解决的或需要进一步改善的问题.该文密切结合企业的需求,基于Sun One体系,提出了一种基于通用平台的支
随着网络技术和计算机三维技术的发展,虚拟现实已经得到广泛应用。本课题在对比了常用的几种图形技术后,选用JAVA 3D图形开发工具进行交互式三维场景生成的研究探讨,并且针对消
在该文中深入讨论了采用基于WEB技术,并以工作流作为运行环境的电子表单的技术架构、具体实现以及该类产品的适用范围和应用价值.该文的章节结构为:第一章重点分析了基于WEB
随着传感器和物联网的迅猛发展,医疗健康、环境监测等领域的研究越来越重要和复杂,并且对公共健康产生着深远的影响。传感器采集的数据具有时间序列特性,对时间序列数据的精准预
嵌入式实时操作系统的研究与开发对提高嵌入式实时应用的技术水平具有重要意义,随着嵌入式实时操作系统应用范围的不断推广,其使用的数据量也逐渐增加,如果仍然按照传统方法