论文部分内容阅读
声音事件识别将隐藏在音频数据中的真实声音识别出来,对于音频取证、环境声音识别、定位跟踪和声源分类等领域具有重要意义。然而,真实环境中存在复杂多变的背景噪声,对声音事件的识别造成一定的影响。针对这个问题,本文以自然环境下的动物声音事件作为研究对象,提出基于优化的正交匹配追踪(Orthogonal Matching Pursuit,OMP)和深度置信网(Deep Belief Network,DBN)的低信噪比声音事件识别方法。本文的主要内容如下:(1)优化的OMP稀疏分解。针对OMP信号稀疏分解在搜索最优原子时计算量较大的问题,提出采用粒子群算法(Particle Swarm Optimization,PSO)对其进行优化,在保证声音信号重构精度的同时实现OMP的快速稀疏分解。(2)优化OMP二次自适应重构。针对传统的噪声估计需要先验地获得噪声的统计知识的问题,采用优化OMP二次自适应重构方法。首先,对声音信号进行优化OMP自适应重构,保留声音信号的主体部分;然后,采用短时谱估计算法将首次重构后的残余信号进行声音增强处理,对首次重构后的声音信号进行补偿;最后,将两次重构后的声音信号进行合并,从而有效地去除非平稳噪声和提高重构声音信号的精度。(3)优化复合时频特征提取。根据环境声音的时频分布,对重构的声音信号从时域、频域和时频域分别提取基频(Pitch)、MFCC和优化OMP特征组成一个优化复合时频特征 OOMP(Optimized Orthogonal Matching Pursuit,OOMP),OOMP特征能较好的保留声音信号的时域和频域信息,从而更好的刻画和表征声音信号,有效地提高识别性能和具有更好的抗噪性能。(4)DBN分类。针对传统分类器识别精度不高和数据过拟合的问题,本文采用DBN对提取的OOMP特征进行模型训练和分类识别。DBN对数据进行建模时,对输入数据进行贪心逐层无监督学习;并且采用BP(Back Propagation,BP)算法进行有监督的微调,从而使训练出的模型具有较强的区分能力,有效的对声音事件进行分类。本文分别在风声、雷雨声和雨天湖边声环境下,以不同的信噪比,对40种声音事件进行识别实验。实验结果表明,本文的方法能有效辨识大范围的声音事件,并且适合于低信噪比环境声音事件的识别。