论文部分内容阅读
随着语音识别技术的快速发展,语音识别系统的性能得到了大幅度的提升,它作为一种方便、快捷、有效的人机交互方式,逐渐步入了人们的生活。然而,这些系统在实际使用过程中往往会遇到识别环境和训练环境不匹配的情况,从而使得识别器性能急剧下降。因此,如何提高语音识别系统在背景噪声环境下的鲁棒性成为其走出实验室,走向人们生活的关键问题之一。本文在总结和分析现有鲁棒语音识别算法的基础上,依据噪声对语音识别系统的影响,从信号空间、特征空间及模型空间三个层面上展开了语音增强、特征增强及语音模型补偿\增强等方面的研究工作,本文主要的工作及创新点如下:提出基于子带谱熵的噪声谱动态估计方法,改进了基于先验信噪比的维纳滤波算法。所提算法首先利用子带谱熵对带噪语音信号进行端点检测以区分有声段与无声段,在此基础上,对无声段数据逐帧地估计噪声功率谱并将当前帧所估计的功率谱与前一帧所估计的功率谱进行加权处理,以加权后的功率谱代替固定的噪声功率谱来进行先验信噪比估计。实验结果表明所提算法可以有效提高语音识别系统的识别正确率。研究了基于多次自相关运算的去噪算法,其目的是保证在去噪的同时而不改变语音信号的频谱结构。算法利用语音信号的多次自相关序列受噪声影响不大这一特点,提出了使用多次自相关后的观测序列来替代带噪语音信号序列作为语音识别系统输入,从而实现对噪声的抑制。本文给出了算法的推导过程,进行了不同相关次数下的语音识别实验,并对结果进行了分析。提出一种使用频域独立分量分析(Independent Component Analysis, ICA)的方法进行语音信号鲁棒特征提取的新算法,用以解决在卷积噪声环境下语音信号的训练与识别特征不匹配问题。该算法通过短时傅里叶变换(Short Time Fourier Transform, STFT)将带噪语音信号从时域转换到频域后,采用频域ICA方法从带噪语音的短时谱中分离出语音信号的短时谱,然后根据所得到的语音信号短时谱计算美尔倒谱系统(Mel Frequency Cepstrum Coefficient, MFCC)及其一阶差分作为特征参数。实验结果表明基于频域ICA方法的语音特征参数在卷积噪声环境下具有良好的鲁棒性。提出了一种基于动态时间规整(Dynamic Time Warping, DTW)的排序新方法,用以解决语音信号频域ICA算法中出现的排序模糊问题。这种方法依据相邻频点间信号具有较高相似度这一特点,通过采用动态时间规整技术实现对相邻频点数据的比较并根据比较结果调整排序位置,实验结果表明基于动态时间规整的排序算法能有效减少频域ICA算法中排序错误次数,提高分离语音质量。深入研究了在加性噪声与卷积噪声环境下使用并行模型合并算法(Parallel Model Combination, PMC)进行模型补偿的基本原理,推导了两种情况下算法的实现过程;提出了一种基于双通道的卷积环境下噪声估计的新方法,即首先在参考通道内使用频域ICA方法作对语音和噪声的短时谱进行分离,然后在主通道内使用带噪语音信号短时谱减去由参考通道所估计的“纯净”语音信号短时谱即可得到噪声的短时谱。实验部分验证了卷积环境下噪声估计的准确性,语音识别结果表明PMC模型补偿算法可以有效提高语音识别系统在噪声环境下的鲁棒性。提出了并行子带隐马尔可夫模型(Hidden Markov Model, HMM)和神经网络(Neural Network, NN)混合的鲁棒语音识别模型,用以解决语音识别系统在噪声环境下当部分频带受到干扰时,基于全频带HMM的语音识别系统的识别率将会下降这一问题。混合模型是将全频带的HMM分解成许多子带HMM,并在每个子带上独立地进行语音识别,然后根据多个子带的输出再次提取出一些新的特征参数,通过神经网络对这些参数进行融合来产生一个全局的决策结果。语音识别实验结果表明,所提混合模型在噪声环境下具有较强的鲁棒性。