论文部分内容阅读
在窄带语音通信系统中,一个重要的问题就是如何在复杂环境下充分利用带宽资源对语音信号进行有效的传输和增强处理,以保证语音通信系统中语音信号的话音质量。在实际的通信环境中,存在着各种随机噪声的干扰;在这种条件下,准确的检测出语音信号并有效的对语音和噪声进行分离,在各种语音通信系统中均有着紧迫的需求;很多主流的语音增强算法在非平稳噪声条件下,难以有效的对语音信息进行准确的估计,增强后的语音音质难以达到令人满意的结果;同时,在一些窄带通信信道中由于比特资源和带宽的限制,只能保证语音在极低速率模式下进行传输,因此,研究一种有效的极低速率语音编码算法在无线窄带通信系统和水声通信系统中均有着广泛的需求,但是随着码率的降低语音编码的音质下降严重;此外,在窄带通信信道中,高频带的丢失也将直接影响到语音的自然度。因此,研究在实际环境中提高窄带语音通信系统的话音质量具有十分重要的理论意义和应用价值,同时它也是一项颇具挑战性的课题。 针对窄带语音通信系统中存在的上述问题,本文围绕着窄带语音通信系统中话音质量增强问题进行了深入的探索和研究。主要的工作和创新点如下: 提出了一种实时的噪声环境下的语音端点检测算法,该方法融合了子带谱包络特征和子带长时信号方差特征进行判决,在各种噪声环境下区分语音段数据和非语音段数据;为了提升算法性能,所提方法只在反映共振峰特性的子带范围内对谱包络特征和长时信号方差特征进行分析;这种算法是一种低复杂度的无监督语音端点检测算法,不需要预训练模型。实验结果表明,这种方法在不同噪声环境下检测语音信号的性能优于不同基线方法,可以在实际语音通信系统中得到应用。 提出了一种基于分析合成框架的单通道语音增强算法,应用一种改进的基于多带梳状滤波方法计算基音周期并判定各个子带的清浊度,降低噪声环境下基音周期的提取精度;引入深层神经网络模型增强线谱对参数,从而降低了谱参数增强的重构误差;将改进的基音周期估计方法和线谱对参数增强方法应用到基于分析合成框架的语音增强算法中,实验结果表明,这种基于分析合成框架的语音增强算法性能优于各种传统的语音增强方法,可以有效的去除各种音乐噪声。同时,将改进的基音周期估计方法和线谱对参数增强方法直接应用到参数化语音编码算法中,能够改善在噪声环境中经过低速率压缩的语音音质。 提出了一种基于深度学习的单通道语音增强算法,应用深层神经网络模型建立带噪语音对数功率谱和安静语音对数功率谱之间的映射关系,利用深层神经网络模型的泛化能力,提高语音增强算法在噪声环境下的鲁棒性,从而改善了非平稳噪声环境下语音增强的音质;通过考虑相邻帧的特征进一步提升了模型的鲁棒性;通过引入有效的后处理方法进一步改善了算法的性能;此外,针对特定的噪声环境,对基于深层神经网络模型的环境自适应方法进行了尝试,使模型能够更好的适用于特定环境。实验结果表明,通过这种深层神经网络模型进行增强处理的语音音质优于传统的语音增强方法。 提出了一种面向窄带通信信道的极低速率参数语音编码算法,在2.4kbpsMELP标准的基础上结合听觉感知理论,对线谱对参数进行联合矢量量化、对基音周期进行内插和非线性量化、对能量参数进行高效压缩,可以使语音数据在0.5kbps速率下低延时传输;将线谱对参数的预测残差用于矢量量化,这是一种提高极低速率模式下解码端合成语音音质的有效方法。实验结果表明,采用本文提出的语音编码算法可以保证语音数据在极低速率模式下有效传输,解码端合成的语音具有较高的可懂度。这种极低速率语音编码算法在北斗数字对讲机中得到了应用。 提出了一种基于深度学习的语音带宽扩展算法,利用深层神经网络模型建立窄带语音信号和宽带语音信号之间的映射关系,实现对窄带语音的带宽扩展,从而提高语音的音质和自然度;通过考虑长跨度特征并引入多种语音参数对高频带对数功率谱进行重构,有效降低了对高频带的重构误差;通过合理的后处理方法抑制了过平滑问题,进一步提升了基于深层神经网络模型的语音带宽扩展算法的性能。实验结果表明,本文提出的语音带宽扩展算法的性能指标优于各种基线方法。