论文部分内容阅读
语音识别在实验室环境中识别性能很高,但是走向实用化的过程中,由于语音本身的变异性以及外部噪声的影响,导致在环境变化时,语音识别系统的性能严重下降。因此,研究能够适应不同环境的鲁棒性语音识别技术具有极其重要的意义。 本文主要研究了鲁棒语音识别中的模型自适应算法,重点研究了基于最大似然线性回归(MLLR: Maximum Likelihood Linear Regression)的模型自适应算法以及基于矢量泰勒级数(VTS: Vector Taylor Series)的模型自适应算法。主要工作内容总结如下: 首先研究了基于MLLR的模型自适应算法,在线性假设的基础上,分别给出了均值变换矩阵与方差变换矩阵的估计方法。并且进行了基于MATLAB的仿真实验,采用实验室录制的中文语音库,在不同噪声环境下,通过改变信噪比以及自适应数据个数,测试不同条件下系统的误识率。实验结果表明,MLLR算法依赖于自适应数据的数量,且在低信噪比条件下效果较好。 接着研究了基于VTS的模型自适应算法,首先推导出了模型参数的矢量泰勒级数关系式,然后分别给出了噪声环境下模型参数的均值与方差的估计方法。将VTS算法与MLLR算法的实验结果进行对比可以发现,VTS算法不依赖于自适应数据的数量,且在低信噪比条件下,识别性能优于MLLR算法,但是MLLR算法相比VTS算法,具有计算量小、复杂度低、易于实现等优点,两种算法各有优缺点。 最后,本文用C语言实现了鲁棒语音识别系统,为了尽可能提高系统的识别性能,采用了基于VTS的模型自适应算法。系统可以实现非特定人孤立词语音识别,在信噪比为15dB时,识别率达到90%,在信噪比为0dB时,识别率达到65%,模型更新完成后识别时间在0.3s以内,系统运行时间和识别率都达到了预期要求。