论文部分内容阅读
声目标识别是声音信号处理领域的热点研究课题,致力于通过分析声音信号中所包含的复杂特征,识别其中包含的语义信息,最终实现声目标的识别。声音作为信息的主要载体之一,声目标的识别可广泛用于安全监管、医疗监护、生态系统调查和反恐防暴等领域。针对复杂环境下多种声音难以得到有效表征和噪声环境下声目标的识别较易误判且易受噪声变化影响的问题,以ESC10、ESC50和UrbanSound8K三个常用的环境声音分类基准数据库和自建数据库AUDIO-5作为研究对象,进行了噪声环境下声信号的表征和识别研究。本文主要研究内容和创新性成果如下:(1)大量阅读并分析整理了声目标识别的国内外相关研究现状,发现基于深度学习的声目标识别方法往往具有更好的识别性能,对多类别的声音具有更好的泛化能力。此外,现有的声信号特征提取方法对声音的特征表达还具有较大的局限性。通过研究有效的声信号特征表达和深度学习方法,寻找更优的特征提取方法和结构化网络模型并在声目标识别上进行实践应用。(2)针对现实环境中不同场景下的背景噪声差距较大,采用固定阈值的端点检测常出现噪声和声目标有效特征混淆从而导致检测准确度较低的问题,提出了自适应的单参数双门限端点检测方法。该方法能有效截去背景音频片段,避免了较多的背景信息干扰。(3)通过分析获知不同声音的最优频率分辨率是不完全相同的,然而现有的音频特征提取方法均是提取出具有单一频率分辨率的特征图,比如对数梅尔特征、耳蜗图特征和恒定Q变换特征,这使得复杂环境下多种声音特征的表达具有较大的局限性。针对该问题提出了一种能够兼顾多个频率分辨率的新颖的特征提取方法,由此提取出多频率分辨率特征来对声信号进行更全面的特征表达,该特征不仅具有数据增强的效果,而且还能提取出更多的时频维度上的关联信息。实验结果表明,相对现有的单一频率分辨率特征提取方法,相比现有特征提出的多频率分辨率特征在ESC10、ESC50和UrbanSound8K三个基准数据库上的识别精度分别提高了1.9%、2.3%和1.7%。(4)声信号的特征图与自然图像最明显的差别就是声信号特征图中背景信息往往比前景信息更多,这造成图像中包含了太多的无用信息从而影响对有效信息的获取。针对该问题本文利用卷积神经网络设计了具有空间注意力的高效网络模型,使得网络提取背景信息的比例逐层降低,将更多的注意力集中在前景区域上,从而减少背景噪声的干扰。该模型还能将三种多频率分辨率特征进行特征通道融合,实现声信号的更全面特征表达。实验结果表明,所提方法在ESC10、ESC50和UrbanSound8K上均达到了更高的精度,分别为97.5%、93.1%和95.3%。对于ESC10,人工在该数据集上的精度为95.7%,该精度是以前的方法从未达到的,然而,我们提出的方法比人工精度高了1.8%,比目前最新的方法提高了3.3%。在ESC50和UrbanSound8K上,本文方法比目前最新的方法分别提高了0.5%和2.3%。(5)针对噪声环境下声目标的识别较易误判且易受噪声变化影响的问题,设计了一个环境自适应的声目标识别系统。采用对声目标信号主动标定的方式,获取声目标在现实环境噪声影响下的特征信息来对模型进行自适应优化。实现了系统的软硬件设计,并将所有功能以图形界面接口的方式呈现出来。自建了数据库AUDIO-5在真实环境下全真模拟来对声目标识别系统进行验证。实验结果表明该系统具有较高的稳定性和环境自适应性。