论文部分内容阅读
目前歌唱声信号的研究都是仿照语音信号分析,采用线性模型和线性分析方法,然而人体的发声系统是复杂的非线性时变系统,线性方法显然不是最理想的选择。本文从高阶统计量和混沌理论两个方面深入研究歌唱声信号的非线性特性,并在此基础上从重构和预测两个角度完成对歌唱声信号的非线性重建。首先,利用高阶统计量对歌唱声信号进行非线性重构。高阶统计量具有对高斯噪声免疫的特性,它与频谱之间具有非线性关系,因此相比于相关函数、功率谱等传统的二阶统计量,高阶统计量包含更多原信号中非线性、非高斯性的成分。根据重构算法理论基础不同进行归类,非参数型算法包括边缘信息法、BMU算法、Lii算法、最小二乘法、递归算法和DFT重构算法;参数型算法包括谐波重构算法和倒双谱重构算法。比较仿真实验结果发现,最小二乘法对歌唱声信号的重构效果最佳。由于歌唱声信号不完全满足参数型算法中假设的线性模型,参数型算法无法得到听觉质量理想的歌唱声信号。其次,利用混沌理论考察歌唱声信号的非线性特性。在相空间重构的基础上,计算相空间轨迹、Lyapunov指数、主分量谱、功率谱等特征,歌唱声信号与典型混沌序列在特征上表现出相似性,表明歌唱声信号具有混沌特性。在此基础上,结合神经网络构建非线性预测模型,实现对歌唱声信号的预测,并考察不同的相空间参数求解算法和采样率对预测效果的影响。实验结果表明,利用CC算法联合估计最佳延迟时间和嵌入维数能得到更好的预测效果。在滚动预测时,可在短期内得到较好效果,长期预测会受到累积误差的影响。最后,利用Volterra级数展开式对信号进行非线性拟合,在时域二阶Volterra模型和相空间二阶Volterra模型下预测信号,考察不同的核系数求解算法、预测步长和采样率对预测效果的影响。通过实验对比发现,奇异值分解法求解核系数、短预测步长、高采样率,这些因素对歌唱声信号的预测更有利。相空间二阶Volterra模型在低采样率信号的预测上比时域二阶Volterra模型表现更好。