论文部分内容阅读
现代信息社会对高质量的语音通信和自然语音交互系统的需求正在日益增加,尤其是搭载语音应用的免提式远讲语音通信和交互设备正在逐渐走进我们的生活。由于应用环境越来越复杂,实际环境的复杂多变对传统语音通信和交互系统的鲁棒性提出了很大的挑战。如何减弱或去除噪声和混响对远讲语音通信和交互系统的负面影响是本文的研究重点。
传统的单通道算法由于只能利用时/频域信息,大多只对平稳或准平稳噪声有一定的抑制和消除作用。而当非平稳噪声存在或信噪比较低时,该类算法往往不能作出有效的贡献。而传声器阵列技术与单通道方法相比,其优势在于除了时、频域信息外,还能提供空间上的区分度,因此被广泛用来提高语音通信和自动语音识别系统的性能。然而,传统基于传声器阵列的语音增强方法在复杂环境下,尤其是方向性干扰源和背景扩散噪声同时存在时性能下降明显;另外,混响也是传声器阵列语音增强需要克服的负面因素。
本文主要研究了复杂环境下基于传声器阵列的语音增强方法,通过充分利用声学环境和语音信号本身带来的先验信息来提高算法在复杂环境下的性能。主要研究工作及创新点包括:
1.针对实际复杂环境下的多通道语音增强问题,提出了一种鲁棒广义旁瓣抵消和多通道后置滤波器算法。为了减弱广义旁瓣抵消的信号相消问题,提出了利用语音信号存在概率在每个听觉子带反馈控制自适应波束形成器更新的方法;同时将自适应干扰抵消在听觉子带内实现,提高了对多干扰源的抑制能力;多通道的后置滤波器不仅用来抑制扩散场噪声和残余的方向性干扰,而且用来提供子带反馈控制所需的子带语音信号存在概率估计;自适应波束形成器和多通道后置滤波器的交互带来了更好的信号保真,从而提高了算法整体的性能。
2.研究了宽边双传声器在多源非平稳环境下的嗓声消除问题。传统双传声器非自适应的方法在克服这一问题时通常会用到相位差或者声源到达角(DOA)信息,在指向性非平稳多干扰源和背景扩散噪声同时存在时性能下降明显。相位差反映了声源的到达角信息,幅度平方相干函数反映了噪声场的空间相干信息。为了利用信号和噪声场的空间域信息,提高在指向性非平稳干扰源和背景扩散噪声同时存在时谱幅度估计性能,本文提出了一种基于空间域信息的语音谱估计方法和基于空间域信息控制软决策的噪声谱估计方法。为了得到软决策信息,基于贝叶斯准则,同时利用相位差和幅度平方相干函数构建了目标语音存在概率估计方法。时频域的信息和空间域信息被同时用来提高传统谱幅度估计在非平稳多源环境下的性能。
3.提出了基于空间相干模型的双通道混响抑制算法:基于声场空间相干模型本文建立起了幅度平方相干函数(MSC)和直达声与混响能量比(DRR)之间的理论关系,并利用估计得到的DRR构建维纳滤波器实现对混响的抑制:为了进一步提高算法的性能,提出了一种估计扩散程度的方法,并根据每个时频点受混响影响程度来改变语音增强的增益函数。实验结果表明,与传统基于相干特性的算法相比,在混响抑制量和语音整体质量方面有明显改善。
4.提出了联合广义统计混响模型和声场空间相干模型的混响抑制算法。统计混响模型和声场空间相干模型从不同的角度反映了声学环境的信息,基于前者的方法对晚期混响有比较好的抑制作用,而基于后者的方法可以有效地减少早期混响的谱染色效应,为了同时利用声学冲激响应的统计特性和声场的空间相干特性,去除早期混响的谱染色效应和抑制晚期混响,本文将基于广义统计混响模型的晚期混响方差估计和提出的基于声场空间相干模型的方法结合在一起,进一步提高了混响抑制的性能和远讲语音识别的识别率。