基于先验知识的单通道语音增强方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:zhuangjun_1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络和通信技术的快速发展,移动通信已成为人们日常生活中不可或缺的一部分。然而,在语音通信过程中,由于经常会不同程度地受到各种背景噪声的干扰,大大影响了移动通信受话端的听觉效果。为了改善移动通信的通话质量,语音增强技术得到了广泛的研究,并且已取得了长足的进步。但目前语音增强技术大多数是针对平稳噪声的,不能迅速地适应和跟踪噪声类型和强度的变化,从而还不能完全满足实际非平稳噪声的应用需求。因此,研究适用于非平稳噪声的单通道语音增强技术成为语音信号处理领域中亟待解决的问题。  上述问题的关键在于传统单通道语音增强方法没有任何语音和噪声的先验知识,因此,本文利用高斯统计模型、矢量量化技术和隐马尔可夫模型(HiddenMarkov Model,HMM)对语音和噪声进行先验建模等方面展开研究,以为单通道语音增强系统提供语音和噪声的先验知识,并最终针对宽带和窄带语音,分别提出了几种基于先验知识的单通道语音增强方法。本文的主要研究工作和创新点体现为以下几个方面:  1、广义加权β阶贝叶斯幅度谱估计方法  根据语音和噪声谱服从复高斯分布的假设,并以此概率分布作为先验知识,本文提出了一种基于先验高斯分布的广义加权β阶幅度谱估计方法,该方法能获得更灵活有效的增益函数。首先,将感知加权阶数p和幅度谱阶数β同时引入到最小均方误差(Minimum Mean Square Error,MMSE)代价函数中,提出了一种广义代价函数;然后将其结合贝叶斯准则,派生出了一种广义加权β阶贝叶斯幅度谱估计器。对于估计器中感知加权阶数p和幅度谱阶数β,根据入耳听觉掩蔽效应和耳蜗的非线性压缩特性,本文分别提出了一种p和β参数的自适应计算方法。实验结果表明该方法能获得显著的分段信噪比提高,且增强语音的对数谱失真较小,其主客观质量都优于参考算法。  2、耦合语音检测与幅度谱估计方法  利用语音离散傅里叶变换(Discrete Fourier Transform,DFT)系数的稀疏特性,并以语音和噪声DFT系数服从复高斯分布假设作为先验知识,本文提出了一种基于先验高斯分布的耦合语音检测与幅度谱估计方法。该方法同时包含了相互耦合的语音检测与估计模块:首先根据DFT系数语音存在与不存在两种决策,通过最小化联合贝叶斯风险函数可分别得到两个最优幅度谱估计器;然后利用得到的最优估计器进一步最小化联合风险函数,可得到最优语音检测器,用于检测含噪语音DFT系数语音成分的存在性;最后根据最优决策选择最终的最优幅度谱估计器,进行含噪语音增强处理。此外,考虑到语音检测误差对增强性能的影响,该方法还利用代价参数对因漏检导致的语音失真与因虚警导致的噪声残留之间进行折中控制。主观和客观测试结果表明,与参考算法相比,该方法能获得更好的增强性能。  3、先验AR模型参数驱动的语音增强方法  为了避免传统单通道语音增强方法对噪声估计性能的依赖,本文根据离线训练的语音和噪声自回归(Auto-regressive,AR)模型系数码书,以此作为语音增强系统的先验知识,提出了一种先验AR模型参数驱动的语音增强方法。该方法对于任意一对语音和噪声AR系数码字对,利用期望最大化(Expectation Maximization,EM)算法从含噪语音中估计出与其相对应的最优语音和噪声AR增益。同时根据似然得分大小,选出C个似然得分最大的语音和噪声AR系数码字对以及与其相对应的最优AR增益,用于构建加权维纳滤波器。此外,由于码书没有对谱细节进行建模,而只对语音谱形状(AR系数)建模,这样就会造成增强语音谐波间存在噪声残留问题,为此,本文提出了一种后验语音存在概率(Speech-Presence Probability,SPP)的估计方法,并将估计的后验SPP对加权维纳滤波器进行修正,有效消除了增强语音谐波间的残留噪声。实验结果表明,与参考方法相比,该方法的增强语音质量得到明显改善,且提高了对未知噪声环境的适应能力。  4、先验增益建模的稀疏ARHMM语音增强方法  由于AR增益估计的准确性对增强性能至关重要,本文提出了一种先验增益建模的稀疏自回归HMM(Sparse Auto-regressive HMM,SARHMM)语音增强方法。该方法利用ARHMM对纯净语音和噪声的AR增益进行明确建模,并以此作为先验知识,在线更新语音增益偏差补偿和噪声增益均值参数,从而获得较准确的语音和噪声AR增益估计。而且,通过引入p范数正则化项,本文派生出了一种稀疏自回归HMM(SARHMM)模型。对于任意含噪观测语音帧,该SARHMM模型都能确保只有少数HMM状态具有重要贡献,这样有效消除了语音和噪声谱形状的模棱两可问题,从而能快速跟踪非平稳噪声的谱形状和能量变化。根据语音和噪声SARHMMs,我们首先构建噪声估计器来估计噪声功率谱,然后我们派生贝叶斯语音估计器来得到增强语音信号。实验结果表明,该方法的主客观增强性能都优于参考算法,尤其是在非平稳噪声环境下(如噪声场景切换),该方法的性能优势更加显著。  5、先验线索参数建模的语音增强方法  考虑到对语音的谱细节进行建模,本文将双耳线索编码(Binaural Cue Coding,BCC)中的线索参数应用到单通道语音增强中来,提出了一种先验线索参数建模的语音增强方法。该方法将纯净语音和噪声信号分别看作是立体声的左右声道,将含噪语音看作是BCC编码的下混合信号,通过离线训练HMM模型来描述纯净线索参数和预增强线索参数的联合概率分布,并以此作为先验知识,从含噪语音中在线估计纯净线索参数。进而根据BCC编码的参数综合方法,利用估计的纯净线索参数构建语音估计器,对含噪语音进行增强处理。实验结果表明,在分段信噪比、对数谱失真和PESQ测度下,该方法的性能都优于参考算法。
其他文献
以塔里木河下游为研究区,采用植被定位监测与野外激活土壤种子库相结合的研究方法,于2006年选择了5个不同退化程度的断面,进行土壤种子库样品采集和植被调查,并开展了野外土壤种
许多革兰氏阴性菌面临不良环境时可能会进入“活的非可培养状态(viablebut non-culturable,VBNC)”以维持生存。当致病菌进入此状态时,在国标规定的检测培养基上不能生长形成
在非真空环境下,我们使用一种简单的热蒸发方法在硅基底上合成了单晶的氧化锌一维纳米材料.该制备方法和其它制备方法不同的是没有引入其它材料作为催化剂.在制备过程中,基底
近年来,氮化镓(GaN)材料越来越受到人们的关注。它具有很多优点:禁带宽,是直接带隙材料,电子饱和速率高,导热性能好,击穿电场高,介电常数小,热稳定性好,化学稳定性强。GaN的禁带宽度大
智能车载导航监控终端是智能交通系统(ITS)的重要组成部分,它也将逐渐成为汽车电子产品的必备组件.智能车载导航监控终端综合运用GPS定位、空间信息处理、计算机网络、人工智
该论文的目的是探索一种获得高峰值功率、高外差频率稳定度激光器的方法,从而为激光雷达提供理想的光源.为满足上述要求,我们设计了双通道部分Z折叠共电极电光调Q射频激励波
在新课程改革的背景下,初中语文也有了新的进展,为教学内容以及授课方式上注入了新的活力,但是初中语文教学中仍存在着瓶颈。笔者以初中语文为切入点,对语文教学的瓶颈进行分析,并
水资源短缺已经成为世界性的环境问题之一,缺水已经困扰着诸多地区经济社会的发展。随着我国为解决西北、华北地区严重缺水的南水北调工程的开工建设,如何确保水源地水质安全日
为了能有效地利用语言这种人类最自然、简便和有效的交流方式,研究者们希望机器能够自动地理解和识别人类的语音信号,并将其转变成相应的文本文件或命令,把人类从某些繁琐的
新课程背景下高中生物新教材中充分体现了“重视生命,珍惜生命”的思想,中学生物学教师应担当起生命教育的重任,通过教学过程,使学生懂得生命教育的理念,培养生命可贵的意识,做到珍