论文部分内容阅读
音频信号作为信息传递的主要途径,相比于视频而言,拥有采集设备简单、方式便捷、所需存储空间小及隐私性高等优点,因此音频监控弥补了视频监控的许多不足,成为安全监控领域关注的焦点。其中,音频事件检测是音频监控的核心技术,即在安全监控中通过音频识别所发生的伴有异常声音的突发异常事件。传统的音频事件检测方法主要用到特征提取方法搭配分类器的方法进行,首先核心的问题仍然是特征提取,经典的音频特征以及针对特定情况人为设计的特征往往过于具体从而并不完整,存在明显缺陷最后导致建模结果偏差。而近年来,深度学习被证明可以有效地应用在音频事件检测领域及提高检测结果。音频事件检测过程中,周围背景声音往往复杂多变且没有规律,这些背景声的出现会明显降低检测性能。本文针对传统音频事件检测方法的不足,在学习、分析深度学习相关知识的基础上,提出了一种将卷积神经网络和循环神经网络相结合的异常音频事件检测模型,并且采用数据增强模块结合基本识别模块的神经网络架构,算法提取异常音频的声谱图作为特征输入,通过数据增强模块获得去噪、增强的特征谱图,然后经由识别模型得出最终识别结果。针对使用深度学习方法在训练异常音频事件检测模型时需要大量带有标签的音频数据以及现有具有标注的音频数据量稀缺的情况,自制了异常音频事件数据集,具体研究内容如下:(1)自制异常音频事件数据集一个精准的异常音频事件检测模型需要使用大量带有标签的异常音频进行训练来获得,而关于音频监控中的异常声音数据资源十分匮乏,因此模型训练严重受限。为了解决这个问题,本文作者搜集并制作了异常声音事件数据集,为每一个音频手动打上标签。因为噪声是音频监控的天敌,现实中的异常声音往往受到噪声限制,不同场景中的噪声与目标信号之间的关系复杂多变,所以除异常声音之外,为了模型能够具有更强大的鲁棒性以及在各种不同的公共环境下更为适用,同样搜集并创建了背景声数据集,包括几种常见的公共环境下的背景声。算法检测试验将异常声音数据集与背景声数据集按不同信噪比混合后,得到不同背景声下多种信噪比混合的异常声音事件数据集。(2)提出了一种改进的异常音频事件检测算法首先提出了一种改进的卷积神经网络和循环神经网络相结合的CRNN异常音频事件检测基本模型,该CRNN网络模型可以看成是一种依赖于弱标签预测强标签的算法模型,所谓弱标签指的是每一段独立的异常音频,只给定其整段音频标签,而不给定其每一帧的帧标签(因为一段被标记类别的音频中并不是每一帧都是目标类别),而通过CRNN算法可以预测得到一段异常音频其中每一帧或者至少每几帧音频的标签,并在最后通过所有帧级标签给定整段音频的类别标签。CRNN算法的主要步骤为:首先,提取异常音频的声谱图作为特征输入该网络模型;然后,卷积层自动从每个输入声谱图中提取特征序列,在卷积网络之上,构建了一个循环网络,用于对卷积层的输出特征序列进行声学建模,建立内部序列关系;最后通过该Softmax分类函数对每一帧或者每几帧音频信号进行标签预测,得到最终预测结果。在异常音频检测这一任务上性能较高,比使用单一的卷积网络更佳。然后,针对环境背景噪声较大、信噪比较低的情况下,提取的声谱图细节模糊,以至于丢失较多有用信息从而对识别产生影响的问题,论文提出了一个基于深度学习的数据增强模块来优化声谱图。该模块由简单的三层网络层构成,按先后顺序分别是卷积层、循环层、反卷积层(Convolutional-Recurrent-Deconvolutional Neural Network,CRDNN),是一种端到端的数据增强算法,不需要对背景噪声进行分析和估计,也不依赖音频信号的统计分布。CRDNN增强算法的主要步骤为:提取异常声音的声谱图;输入至CRDNN网络中;网络输出得到增强后的声谱图。将该增强后的声谱图输入至异常音频事件检测基本模型中,将该模块应用于本文异常音频事件检测算法,在异常音频数据集的实验结果证明了该CRDNN网络的数据增强效果以及该增强网络的有效性和泛化性,声谱图中残留背景噪声更少,识别能力有所提升。