论文部分内容阅读
本文基于波形内插(Waveform Interpolation,WI)模型,针对特征波形分解问题、特征波形对齐问题和相位问题作了重要改进:
在特征波形分解问题上,本文提出了基于离散余弦变换(Dsicrete Cosine Transform,DCT)的分解方法,将当前帧的特征波形分解为直流成分、低频成分和高频成分。与FIR低通滤波分解方法相比,该分解方法避免了传统方法的一帧额外延时,克服了分解后成分的不独立问题,保持了不引入分解偏差的优点,计算复杂度较FIR低通滤波方法下降了80%。在性能上,该方法也优于小波分解方法、奇异值分解方法和非负矩阵分解方法。该分解方法同时带来量化方面的优势,分解后的成分符合人耳感知特性,易于量化。同时,本文去除了传统WI声码器的对齐操作,使得编解码计算复杂度下降18%,实验结果表明,去掉对齐操作不影响重建语音质量。
在相位问题上,本文提出清/浊相位判决方法和浊音相位分类方法。在解码端,首先对当前语音帧进行清/浊判决,若判决当前帧为浊音帧,直流成分和低频成分添加固定相位,高频成分添加随机相位,且固定相位采用按基音周期分类的方法。若判决当前语音帧为清音帧,在添加相位时,直流成分、低频成分和高频成分都加入随机相位。实验表明,该方法能明显提升重建语音的听觉效果。
最后,本文提出了速率分别为2.0kbps和1.6kbps的DCT-WI语音编码器,并分别对其进行了MOS分测试。主观听觉表明,2.0kbps的DCT-WI声码器与2.4Kbps的MELP声码器具有一致的听觉效果,1.6kbps的DCT-WI声码器效果稍差于2.4kbps的MELP声码器。