基于灰色模型和支持向量机的音频频带扩展方法

论文部分内容阅读

本文在深入研究传统音频频带扩展方法、音频非线性特性分析及预测技术的基础之上，根据高低频频谱包络发展态势，对超宽带音频信号的高低频相关性展开研究，提出了基于灰色模型的音频高频子带能量估计方法。另外，根据音频频域序列的非线性特性，本文在相空间重构的基础上，借助最小二乘支持向量机对高频相点的轨迹进行非线性预测，从而有效地恢复音频信号的高频频谱细节。最终，将完整的盲目式频带扩展方法应用到实际的音频编解码器中，实现了宽带音频向超宽带音频信号的有效扩展。在音频高频子带能量估计方面，本文首先对灰色模型用于估计高频子带能量方面的适用性进行了研究，然后根据音频信号频谱包络变化趋势，利用累加生成和背景值生成来降低低频频谱包络序列的随机性，并借助最小二乘参数拟合方法构建GM(1,1)预测模型，从而实现了对高频子带能量的有效估计。此外，为了进一步优化模型，本文还对灰色模型背景值序列的构造方法进行了探讨。同时，本文又提出了基于灰色Verhulst模型的高频子带能量估计方法，采用灰色Verhulst微分方程来描述频谱包络形状的近似饱和特性，进而完成对高频频谱包络序列的有效预测。由于上述两种灰色模型对于不同类型音频信号的频带扩展效果各有优劣，本文进一步提出了选择性灰色预测模型，根据拟合误差最小准则自适应地估计每帧音频的高频子带能量，更加有效地提升了音频信号频谱包络扩展的性能。在音频高频频谱细节恢复方面，本文根据音频频域序列的非线性特性，采用延迟重建方法将一维频域序列转化到多维相空间中，并引入局部最小二乘支持向量机模型，实现了对高频频谱细节的非线性预测。最后，结合基于灰色模型的选择性预测方法，形成了一套完整的宽带音频向超宽带音频的盲目式频带扩展方法。为了验证实际的扩展性能，本文将所提出的音频频带扩展方法应用到24kbps速率下的宽带音频编码器G.722.1中，并在同码率下与基于高斯混合模型和最近邻匹配的频带扩展参考方法以及超宽带音频编码器G.722.1C进行了性能比较。测试结果表明，所提方法重建的超宽带音频保留了原始音频信号的大部分频谱特性，高低频衔接处过渡自然，主观听感流畅，其主客观质量与G.722.1C重建音频质量相当，并且较参考方法有显著提升。

其他学术论文