论文部分内容阅读
随着网络和通信技术的快速发展,移动通信已成为人们日常生活中不可或缺的一部分。然而,在语音通信过程中,由于经常会不同程度地受到各种背景噪声的干扰,大大影响了移动通信受话端的听觉效果。为了改善移动通信的通话质量,语音增强技术得到了广泛的研究,并且已取得了长足的进步。但目前语音增强技术大多数是针对平稳噪声的,不能迅速地适应和跟踪噪声类型和强度的变化,从而还不能完全满足实际非平稳噪声的应用需求。因此,研究适用于非平稳噪声的单通道语音增强技术成为语音信号处理领域中亟待解决的问题。 上述问题的关键在于传统单通道语音增强方法没有任何语音和噪声的先验知识,因此,本文利用高斯统计模型、矢量量化技术和隐马尔可夫模型(HiddenMarkov Model,HMM)对语音和噪声进行先验建模等方面展开研究,以为单通道语音增强系统提供语音和噪声的先验知识,并最终针对宽带和窄带语音,分别提出了几种基于先验知识的单通道语音增强方法。本文的主要研究工作和创新点体现为以下几个方面: 1、广义加权β阶贝叶斯幅度谱估计方法 根据语音和噪声谱服从复高斯分布的假设,并以此概率分布作为先验知识,本文提出了一种基于先验高斯分布的广义加权β阶幅度谱估计方法,该方法能获得更灵活有效的增益函数。首先,将感知加权阶数p和幅度谱阶数β同时引入到最小均方误差(Minimum Mean Square Error,MMSE)代价函数中,提出了一种广义代价函数;然后将其结合贝叶斯准则,派生出了一种广义加权β阶贝叶斯幅度谱估计器。对于估计器中感知加权阶数p和幅度谱阶数β,根据入耳听觉掩蔽效应和耳蜗的非线性压缩特性,本文分别提出了一种p和β参数的自适应计算方法。实验结果表明该方法能获得显著的分段信噪比提高,且增强语音的对数谱失真较小,其主客观质量都优于参考算法。 2、耦合语音检测与幅度谱估计方法 利用语音离散傅里叶变换(Discrete Fourier Transform,DFT)系数的稀疏特性,并以语音和噪声DFT系数服从复高斯分布假设作为先验知识,本文提出了一种基于先验高斯分布的耦合语音检测与幅度谱估计方法。该方法同时包含了相互耦合的语音检测与估计模块:首先根据DFT系数语音存在与不存在两种决策,通过最小化联合贝叶斯风险函数可分别得到两个最优幅度谱估计器;然后利用得到的最优估计器进一步最小化联合风险函数,可得到最优语音检测器,用于检测含噪语音DFT系数语音成分的存在性;最后根据最优决策选择最终的最优幅度谱估计器,进行含噪语音增强处理。此外,考虑到语音检测误差对增强性能的影响,该方法还利用代价参数对因漏检导致的语音失真与因虚警导致的噪声残留之间进行折中控制。主观和客观测试结果表明,与参考算法相比,该方法能获得更好的增强性能。 3、先验AR模型参数驱动的语音增强方法 为了避免传统单通道语音增强方法对噪声估计性能的依赖,本文根据离线训练的语音和噪声自回归(Auto-regressive,AR)模型系数码书,以此作为语音增强系统的先验知识,提出了一种先验AR模型参数驱动的语音增强方法。该方法对于任意一对语音和噪声AR系数码字对,利用期望最大化(Expectation Maximization,EM)算法从含噪语音中估计出与其相对应的最优语音和噪声AR增益。同时根据似然得分大小,选出C个似然得分最大的语音和噪声AR系数码字对以及与其相对应的最优AR增益,用于构建加权维纳滤波器。此外,由于码书没有对谱细节进行建模,而只对语音谱形状(AR系数)建模,这样就会造成增强语音谐波间存在噪声残留问题,为此,本文提出了一种后验语音存在概率(Speech-Presence Probability,SPP)的估计方法,并将估计的后验SPP对加权维纳滤波器进行修正,有效消除了增强语音谐波间的残留噪声。实验结果表明,与参考方法相比,该方法的增强语音质量得到明显改善,且提高了对未知噪声环境的适应能力。 4、先验增益建模的稀疏ARHMM语音增强方法 由于AR增益估计的准确性对增强性能至关重要,本文提出了一种先验增益建模的稀疏自回归HMM(Sparse Auto-regressive HMM,SARHMM)语音增强方法。该方法利用ARHMM对纯净语音和噪声的AR增益进行明确建模,并以此作为先验知识,在线更新语音增益偏差补偿和噪声增益均值参数,从而获得较准确的语音和噪声AR增益估计。而且,通过引入p范数正则化项,本文派生出了一种稀疏自回归HMM(SARHMM)模型。对于任意含噪观测语音帧,该SARHMM模型都能确保只有少数HMM状态具有重要贡献,这样有效消除了语音和噪声谱形状的模棱两可问题,从而能快速跟踪非平稳噪声的谱形状和能量变化。根据语音和噪声SARHMMs,我们首先构建噪声估计器来估计噪声功率谱,然后我们派生贝叶斯语音估计器来得到增强语音信号。实验结果表明,该方法的主客观增强性能都优于参考算法,尤其是在非平稳噪声环境下(如噪声场景切换),该方法的性能优势更加显著。 5、先验线索参数建模的语音增强方法 考虑到对语音的谱细节进行建模,本文将双耳线索编码(Binaural Cue Coding,BCC)中的线索参数应用到单通道语音增强中来,提出了一种先验线索参数建模的语音增强方法。该方法将纯净语音和噪声信号分别看作是立体声的左右声道,将含噪语音看作是BCC编码的下混合信号,通过离线训练HMM模型来描述纯净线索参数和预增强线索参数的联合概率分布,并以此作为先验知识,从含噪语音中在线估计纯净线索参数。进而根据BCC编码的参数综合方法,利用估计的纯净线索参数构建语音估计器,对含噪语音进行增强处理。实验结果表明,在分段信噪比、对数谱失真和PESQ测度下,该方法的性能都优于参考算法。