论文部分内容阅读
低速率语音编码算法在现代通信系统中有着非常广泛的应用,超低速率下的语音压缩编码算法是目前语音信号处理领域的重要研究课题之一。正弦激励线性预测(Sinusoidal excitation linear prediction, SELP)编码算法采用基于线性预测的正弦混合激励技术,在2.4kbps及更低速率的语音压缩编码算法中具有非常优越的性能。论文的研究目的是在SELP模型的基础上,对语音编码算法中的关键技术进行分析和研究,设计实现150bps的超低速率语音压缩编码算法。论文首先提出了高效的特征参数量化算法。在线谱频率参数(Line spectralfrequency, LSF)的标量量化中,提出了基于动态规划的全局最优LSF差值量化算法,并采用多码本进一步提高参数的量化性能,该算法能够在每帧28bits达到LSF参数的透明量化。在对基音周期参数进行矢量量化时,利用人耳的听觉特性,提出了基于感觉加权的失真度量准则,提高了参数的量化性能,并设计了一种码字搜索的整型优化算法,降低了基音周期最优码字的误搜索概率。针对超低速率语音编码算法中,特征参数量化比特不足的问题,提出了利用参数间相关性的特征参数解码端恢复算法。首先提出基于隐马尔可夫模型(HiddenMarkov model, HMM)的能量参数恢复算法,根据LSF参数和子带清浊音(Unvoiced/Voiced, U/V)参数估计能量参数的变化轨迹。随后提出基于高斯混合模型(Gaussian Mixed Model, GMM)的U/V参数恢复算法,利用LSF参数和归一化能量参数,对U/V参数的概率分布特性进行估计,从而节省了参数量化所需的比特数。随后,从解码端角度考虑,提出了特征参数插值方式的改进算法,以提高清浊音过渡时声码器的合成语音自然度。为了提高声码器的抗连续丢包处理能力,提出基于分模式线性预测的丢包隐藏算法,改善了连续丢包情况下的合成语音质量。最后,综合上述研究成果,设计并实现了150bps SELP语音编码算法,合成语音的客观平均意见分(Mean Opinion Score, MOS)为2.424,判断韵字测试(Diagnostic rhyme test, DRT)的准确率达到82.9%,码本存储量为120Kword,算法延时为325ms,总体性能指标超出国家十一五专项项目的要求。