论文部分内容阅读
噪声环境下,许多语音处理系统的性能急剧下降。语音增强作为解决噪声污染的一种有效的预处理技术,一直是语音信号处理领域中的热门课题。语音增强的目的就是从带噪语音信号中提取尽可能纯净的原始语音信号,提高信噪比,改善语音质量。
基于短时谱估计的语音增强由于具有适用信噪比范围大、方法简单、易于实时处理等优点,是目前应用最广泛的方法。这种语音增强方法通常都采用精确的噪声估计来采集噪声的特性,然后通过良好的增强算法来得到期望的估计语音。本文立足于跟踪国内外的最新技术,系统深入地研究了短时谱增强方法中的各个技术环节,主要实现工作如下:
1.深入地研究了三种基本的短时谱估计方法:谱减法、维纳滤波和最小均方误差(MMSE)估计。在分析了基于语音短时谱估计增强方法的基础上,将先验信噪比的直接判决法估计引入到增益函数的计算中,有效地解决了此类方法增强语音中经常伴随的“音乐噪声”问题。
2.从语音活动检测(VAD)和连续更新噪声谱两方面入手,深入探讨了语音增强系统中的噪声估计问题。在此基础上给出了两种有效的噪声估计方法:基于统计模型VAD的方法与基于最小值约束的快速自适应方法。实验表明,VAD方法计算量小,易于实现,但是对非平稳噪声跟踪力度不够;基于最小值约束的方法能够及时地跟踪噪声变化,获得准确的噪声估计,有效地改善增强效果。
3.针对传统短时谱方法中存在的语音失真问题,研究了人耳的听觉感知特性在语音增强中的应用,提出一种基于听觉掩蔽效应的STSA语音增强算法。该算法根据掩蔽阈值与噪声之间的相对关系,对带噪语音谱分量有选择地进行处理,在抑制背景噪声的同时,有效地减少了对原语音信号的损伤。实验表明,听觉掩蔽的利用能够很好地提高语音质量,改善增强效果。