基于ICRNN-GRU异常音频事件检测及增强算法研究

来源 :杭州电子科技大学 | 被引量 : 1次 | 上传用户:qdled2046
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频信号作为信息传递的主要途径,相比于视频而言,拥有采集设备简单、方式便捷、所需存储空间小及隐私性高等优点,因此音频监控弥补了视频监控的许多不足,成为安全监控领域关注的焦点。其中,音频事件检测是音频监控的核心技术,即在安全监控中通过音频识别所发生的伴有异常声音的突发异常事件。传统的音频事件检测方法主要用到特征提取方法搭配分类器的方法进行,首先核心的问题仍然是特征提取,经典的音频特征以及针对特定情况人为设计的特征往往过于具体从而并不完整,存在明显缺陷最后导致建模结果偏差。而近年来,深度学习被证明可以有效地应用在音频事件检测领域及提高检测结果。音频事件检测过程中,周围背景声音往往复杂多变且没有规律,这些背景声的出现会明显降低检测性能。本文针对传统音频事件检测方法的不足,在学习、分析深度学习相关知识的基础上,提出了一种将卷积神经网络和循环神经网络相结合的异常音频事件检测模型,并且采用数据增强模块结合基本识别模块的神经网络架构,算法提取异常音频的声谱图作为特征输入,通过数据增强模块获得去噪、增强的特征谱图,然后经由识别模型得出最终识别结果。针对使用深度学习方法在训练异常音频事件检测模型时需要大量带有标签的音频数据以及现有具有标注的音频数据量稀缺的情况,自制了异常音频事件数据集,具体研究内容如下:(1)自制异常音频事件数据集一个精准的异常音频事件检测模型需要使用大量带有标签的异常音频进行训练来获得,而关于音频监控中的异常声音数据资源十分匮乏,因此模型训练严重受限。为了解决这个问题,本文作者搜集并制作了异常声音事件数据集,为每一个音频手动打上标签。因为噪声是音频监控的天敌,现实中的异常声音往往受到噪声限制,不同场景中的噪声与目标信号之间的关系复杂多变,所以除异常声音之外,为了模型能够具有更强大的鲁棒性以及在各种不同的公共环境下更为适用,同样搜集并创建了背景声数据集,包括几种常见的公共环境下的背景声。算法检测试验将异常声音数据集与背景声数据集按不同信噪比混合后,得到不同背景声下多种信噪比混合的异常声音事件数据集。(2)提出了一种改进的异常音频事件检测算法首先提出了一种改进的卷积神经网络和循环神经网络相结合的CRNN异常音频事件检测基本模型,该CRNN网络模型可以看成是一种依赖于弱标签预测强标签的算法模型,所谓弱标签指的是每一段独立的异常音频,只给定其整段音频标签,而不给定其每一帧的帧标签(因为一段被标记类别的音频中并不是每一帧都是目标类别),而通过CRNN算法可以预测得到一段异常音频其中每一帧或者至少每几帧音频的标签,并在最后通过所有帧级标签给定整段音频的类别标签。CRNN算法的主要步骤为:首先,提取异常音频的声谱图作为特征输入该网络模型;然后,卷积层自动从每个输入声谱图中提取特征序列,在卷积网络之上,构建了一个循环网络,用于对卷积层的输出特征序列进行声学建模,建立内部序列关系;最后通过该Softmax分类函数对每一帧或者每几帧音频信号进行标签预测,得到最终预测结果。在异常音频检测这一任务上性能较高,比使用单一的卷积网络更佳。然后,针对环境背景噪声较大、信噪比较低的情况下,提取的声谱图细节模糊,以至于丢失较多有用信息从而对识别产生影响的问题,论文提出了一个基于深度学习的数据增强模块来优化声谱图。该模块由简单的三层网络层构成,按先后顺序分别是卷积层、循环层、反卷积层(Convolutional-Recurrent-Deconvolutional Neural Network,CRDNN),是一种端到端的数据增强算法,不需要对背景噪声进行分析和估计,也不依赖音频信号的统计分布。CRDNN增强算法的主要步骤为:提取异常声音的声谱图;输入至CRDNN网络中;网络输出得到增强后的声谱图。将该增强后的声谱图输入至异常音频事件检测基本模型中,将该模块应用于本文异常音频事件检测算法,在异常音频数据集的实验结果证明了该CRDNN网络的数据增强效果以及该增强网络的有效性和泛化性,声谱图中残留背景噪声更少,识别能力有所提升。
其他文献
飞机装配是产品生命周期中的重要环节,与产品性能、质量等因素密切相关。目前,飞机装配工艺设计大多以二维图纸为依据,其方法可视化效果差,而应用三维模型可以形象的、直观的
在计算机视觉、模式识别与机器学习领域中图像场景分类扮演着非常重要的角色。图像场景分类广泛应用于很多个领域,如目标识别和行为检测。但是,对于单个物体实例来说,通常会
探索与利用的均衡一直是强化学习研究的重点之一。探索帮助智能体进一步了解环境来做出更优决策;而利用帮助智能体根据其当前对于环境的认知来做出当前最优决策。强化学习通
石油产品自20世纪初就成为了工业生产的重要原料,由于泄露、偷排、意外事故等原因,它们进入环境造成污染并严重地威胁着人类健康。这些难溶于水有机液态污染物进入地下环境后
近年来,随着社会老龄化加剧及经济下行的压力加大,医保基金收入逐步放缓。与此同时,国家医保制度在不断完善,医保参保范围逐步扩大,医疗需求得到大量释放,使得医保基金支出增
机器学习方法是一种时下相当热门的方法,它在计算机视觉,自然语言处理,数据挖掘,自动驾驶等等领域取得了巨大的成果。当下,由于某类机器学习方法的激活函数与传统有限元方法
铁路在我国交通体系中一直处于骨干地位,是连接各大经济区域之间、城乡之间交通与经济的运输大动脉。铁路对地方经济社会发展起着保障性的基础作用,也是未来持续发展的强大动
作为一种重要的优化方法,进化算法以其实现简易、效果突出等优点在许多单目标连续优化问题上得到了广泛应用。然而,没有免费午餐定理(No Free Lunch Theorem)揭示了优化算法
近年来,图像分类算法发展迅猛、成果显著,尤其是以基于深度学习的图像分类算法更是取得了比肩人类的性能。但是该领域的发展仍存在以下两大挑战。首先,虽然基于深度学习的图
随着信息科学技术的快速发展,物联网逐渐在人类社会的各个领域铺开,在社会经济发展和社会建设过程中起到了重要的作用。在以监测为主要目的的物联网中,无线传感器网络被大量