论文部分内容阅读
语音是人们相互交流所使用的最基本的手段,然而在现实环境中,语音总是受到各种噪声的干扰。噪声的存在不但会降低语音的质量,还影响语音的可懂度。不仅如此,噪声干扰还会导致语音处理系统性能的急剧恶化。语音增强技术就是要抑制噪声,从带噪语音中提取出尽可能纯净的语音信号。传统的比较成熟的单声道语音增强方法有谱减法、维纳滤波法、基于统计模型的方法等,近十几年人们对语音增强又进行了许多新的探索,例如小波变换法,听觉掩蔽法等。本文系统地研究了传统的单声道语音增强算法,研究过程中发现在低信噪比条件下,传统算法大都存在性能严重下降的缺点。为了提高增强的效果,本文对BP神经网络以及深度学习中的栈自动编码机和深度信念网络这两种主流模型进行了深入的研究,神经网络能够模拟人脑的工作原理,具有自学习能力和强大的非线性映射能力。在此基础上,本文提出了基于深度信念网络的噪声幅度谱估计语音增强方法,此方法中,BP算法被用来对网络进行微调。此外,本文对子空间语音增强算法进行了改进。在本文所提出的语音增强方法中,通过对深度信念网络进行预训练和微调,使之可以实现从带噪语音幅度谱到噪声幅度谱的非线性映射。在得到对带噪语音中噪声的幅度谱估计之后,使用带噪语音幅度谱减去网络估计的噪声幅度谱得到对纯净语音幅度谱的估计,最后利用人耳对相位信息不敏感的特性,使用带噪语音的相位信息采用重叠相加法恢复增强语音的时域波形,这种方法在低信噪比下具有较好的性能。为了进一步提高增强语音的质量,本文训练了多个适应于不同类型噪声的深度信念网络,并在进行噪声幅度谱估计之前,加入了噪声分类模块。本文分析了子空间语音增强算法中存在的不足之处:子空间方法中使用VAD检测对噪声进行估计,无法在语音帧及时更新噪声;在低信噪比条件下,VAD检测的性能迅速降低,导致子空间语音增强算法性能也迅速下降。针对这两点不足之处,本文结合所提出的语音增强方法分别给出了改进方案。一种方案是在VAD检测的语音帧使用网络估计的噪声进行噪声的更新,第二种方案是不进行VAD检测,在每一帧都使用网络估计的噪声进行噪声的更新。最后,本文在MATLAB平台上对子空间语音增强方法,基于深度信念网络的噪声幅度谱估计语音增强方法,两种改进的子空间语音增强方法进行了仿真并对比其性能。性能指标使用PESQ得分。仿真结果显示,基于深度信念网络的噪声幅度谱估计语音增强方法在低信噪比条件下,性能超过子空间法。两种改进的子空间方法的性能无论在高信噪比还是低信噪比条件下,性能均优于子空间法,并且,信噪比越低,较子空间法越优。