论文部分内容阅读
电话是最普及的话音通信工具,是各种先进语音技术最大的潜在应用领域.语音识别是基于电话平台的语音应用的一项核心技术.目前在实验室条件下表现出色的语音识别系统在实际电话网络应用中都变十分脆弱.提高电话语音识别鲁棒性是实现其商用化的关键问题.该文针对汉语电话语音识别应用中的技术难点,在以下几个方面做了深入研究和有效改进.汉语是一种典型的声调语言,声调信息对汉语语音识别有重要作用.然而由于电话通道的调制作用,通常的基频提取算法在电话通道上有较大误差,直接影响语音的识别率.我们采用改进的无偏自相关分析方法,提出自相关强度与清/浊音统计判决相结合的基频跟踪方法,使清/浊音误判率下降到原有自相关方法的24﹪.准确可靠的基频特征使电话语音孤立词的识别率相对下降6.5﹪.鲁棒的前端特征是高性能语音识别的前提.由于目前对语言的发音和感知机理缺乏深入认识,还没有与噪声/通道无关的语音特征表示.系统的训练和测试通道不一致时,必须对语音特征进行补偿.由于电话通道内存在众多不确定因素,通常的倒谱均值估计和倒谱滤波方法都不能取得理想效果.我们提出准线性通道分析模型,利用语音统计模型和最大似然估计方法估算通道偏置.在汉语大词汇量连续电话语音识别测试中使字误识率相对降低20﹪.为解决快速补偿中出现的数据稀疏问题,引入音素相关的通道先验知识,利用最大后验估计方法估算通道偏置,使相对误识率进一步下降7﹪.与其它补偿方法不同,这两种新算法不但对固定电话通道有效,对非线性的无线压缩电话通道也有作用.针对特定应用的声学自适应是语音识别应用系统的重要组成.在级联线性变换自适应方法的基础上,我们提出一种新的全矩阵线性变换参数化简形式.新方法在保持全矩阵变换精度优势的同时能有效减少重估参数的数目,提高估值的鲁棒性.这使我们可以在更小的回归类上进行变换估计,提高了自适应精度.新方法在不同数据规模的自适应测试中都优于原有基于变换的自适应方法.最后讨论在自然连续语流识别是对背景噪声和集外词的拒识机制及在电话语音识别平台中的实现.实现了基于噪声模型和汉语音节补白模型的并行搜索拒识方法,并利用这种方法有效地进行连续语流中的关键词检测.