电话语音识别鲁棒性研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:wxbft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电话是最普及的话音通信工具,是各种先进语音技术最大的潜在应用领域.语音识别是基于电话平台的语音应用的一项核心技术.目前在实验室条件下表现出色的语音识别系统在实际电话网络应用中都变十分脆弱.提高电话语音识别鲁棒性是实现其商用化的关键问题.该文针对汉语电话语音识别应用中的技术难点,在以下几个方面做了深入研究和有效改进.汉语是一种典型的声调语言,声调信息对汉语语音识别有重要作用.然而由于电话通道的调制作用,通常的基频提取算法在电话通道上有较大误差,直接影响语音的识别率.我们采用改进的无偏自相关分析方法,提出自相关强度与清/浊音统计判决相结合的基频跟踪方法,使清/浊音误判率下降到原有自相关方法的24﹪.准确可靠的基频特征使电话语音孤立词的识别率相对下降6.5﹪.鲁棒的前端特征是高性能语音识别的前提.由于目前对语言的发音和感知机理缺乏深入认识,还没有与噪声/通道无关的语音特征表示.系统的训练和测试通道不一致时,必须对语音特征进行补偿.由于电话通道内存在众多不确定因素,通常的倒谱均值估计和倒谱滤波方法都不能取得理想效果.我们提出准线性通道分析模型,利用语音统计模型和最大似然估计方法估算通道偏置.在汉语大词汇量连续电话语音识别测试中使字误识率相对降低20﹪.为解决快速补偿中出现的数据稀疏问题,引入音素相关的通道先验知识,利用最大后验估计方法估算通道偏置,使相对误识率进一步下降7﹪.与其它补偿方法不同,这两种新算法不但对固定电话通道有效,对非线性的无线压缩电话通道也有作用.针对特定应用的声学自适应是语音识别应用系统的重要组成.在级联线性变换自适应方法的基础上,我们提出一种新的全矩阵线性变换参数化简形式.新方法在保持全矩阵变换精度优势的同时能有效减少重估参数的数目,提高估值的鲁棒性.这使我们可以在更小的回归类上进行变换估计,提高了自适应精度.新方法在不同数据规模的自适应测试中都优于原有基于变换的自适应方法.最后讨论在自然连续语流识别是对背景噪声和集外词的拒识机制及在电话语音识别平台中的实现.实现了基于噪声模型和汉语音节补白模型的并行搜索拒识方法,并利用这种方法有效地进行连续语流中的关键词检测.
其他文献
随着电力电子技术、微处理器技术的发展,基于数字控制技术的交流电机变频调速系统日趋完善;由于在动态响应、调速精度、低频转矩、功率因数、工作效率、高速和大容量化等方面
随着我国市场经济的发展,对流体流量及总量的要求越来越高,特别是在注重产品质量、节约能源、经济核算和企业效益的当今时代,流量测量显得更为重要。科技工作者们经过不断的
信息时代,人们对资讯的关心程度越来越高,资讯的发布方式也就成为了一个值得研究和探讨的课题。资讯电视系统是一种新型的电视系统。资讯电视播出系统是以文字,图形,图表为主辅以
直升机比较突出的特点是可以做悬停、低速和低空等机动飞行,特别是可在小面积场地垂直起降和在空中悬停,这些特点使其具有广阔的发展前景,己在民用、军用方面得到了广泛应用
论文首先对移动机器人群体行为设计的研究现状进行了简单的论述,并对多移动机器人协作系统的特点、体系结构和研究现状进行简要的概述.接下来,介绍多机器人系统中的交互模式,
该文以圆形轨道倒立摆系统为实验平台,使用模糊控制、最优控制和拟人智能控制的方法设计了圆形轨道倒立摆的零点平衡控制器和摆起控制器.主要完成了以下工作: (1)采用分析力
应用于玻璃自动切割领域的数控系统具有切割精度高、切割工艺过程复杂等特点,目前其控制系统大多依赖于进口.和国外同类产品相比,中国的产品在性能、精度、速度、易用性和可
建立企业综合自动化系统,即实现企业经营管理、生产和销售的全局自动化,对缩短生产周期,加快资金周转,降低产品成本,提高企业竞争力,具有重要意义.该文对综合自动化系统发展
该文针对6KV中压电网三相平衡负载的无功功率补偿,结合二极管箝位多电平逆变器和H桥级联多电平逆变器的特点,提出了一种能够直接并入电网的新型主从式的逆变器结构:主逆变器
信息技术的日新月异,不断地完善着现有的集中供热管理体制,同时也迫切要求发展新的技术来提高热量计量收费的可靠性,改变过去热力站数据采集靠人工抄表的落后方法,以实现集中供热