论文部分内容阅读
基于非负矩阵分解(Nonnegative matrix factorization,NMF)的语音增强是目前一种对抑制非平稳噪声非常有效的技术,其使用非负的语音和噪声基矩阵(Basis matrix)来表示语音和噪声的频谱子空间,通过在语音和噪声的联合基矩阵中分解带噪语音的频谱矢量,来获得相应的语音和噪声编码矢量,进而获得估计的语音和噪声频谱分量,实现语音增强。但是此类方法存在两个不足,其一是在语音和噪声基矩阵存在重叠时,该方法会导致语音和噪声源的混淆,其二就是需要和背景噪声匹配的噪声基矩阵,而背景噪声的类型及特性不可能总被提前知道。本文针对这两个不足提出了以下三种改进的方法:首先,本文提出了一种基于码本(Codebook)约束的非负矩阵分解语音增强方法,在训练阶段,该方法训练一个语音码本对语音的幅度谱进行建模。在增强阶段,该方法首先估计噪声的幅度谱,并用其和码本中的语音码字构造基矩阵,然后把带噪语音的幅度谱在构造的基矩阵中进行分解,选出最优的基矩阵和最优的分解,进而得到语音和噪声分量的估计,最后用得到的语音和噪声分量构建一个滤波器实现语音增强。该方法巧妙地用语音码字和噪声幅度谱构建增强阶段的基矩阵,不用预先训练语音和噪声的基矩阵,而且噪声谱是在线估计得到的,因此不存在语音和噪声的源混淆问题和噪声基矩阵不匹配问题。其次,本文提出了一种使用深度神经网络(Deep neural networks,DNN)预测基于非负矩阵分解的维纳滤波器(NMF-based Wiener filter)的语音增强方法,基于非负矩阵分解的维纳滤波器作为一种基于掩膜的训练目标,更有利于参数估计,而且直接预测基于非负矩阵分解的维纳滤波器减少了语音增强过程中的中间误差。此外,该方法利用NMF对带噪语音进行特征提取,并且把获得的特征归一化到零均值和单位方差来获得更有判别力的特征。该方法利用DNN的强大的建模能力学习从带噪语音特征到基于非负矩阵分解的维纳滤波器的非线性映射关系,较好地解决了NMF过程中存在的语音和噪声源的混淆问题。最后,本文提出了一种基于噪声基矩阵在线更新的非负矩阵分解语音增强方法,该方法首先利用一个无语音帧判决模块识别出带噪语音的无语音区域,然后利用一个固定长度的滑动窗口来包含若干帧最近过去的带噪语音的无语音帧,并用这些无语音帧的幅度谱在线更新噪声基矩阵,最后利用更新得到的噪声基矩阵和预先训练的语音基矩阵实现语音增强。该方法能够在线更新出匹配的噪声基矩阵,有效地解决了噪声基矩阵不匹配的问题。