论文部分内容阅读
随着城市建设的不断发展,城市环境发生了巨大的变化,城市中存在着各种各样的声音,如:汽车鸣笛声、发动机声、碰撞声、警笛声、吵闹声和孩童哭声等。在这些声音中,不同的声音蕴含着不同的信息,对城市环境声音进行识别以满足不同应用需求,具有重要的现实意义。目前,虽然有众多研究者对城市环境声音识别技术进行了研究,并提出了具体的识别算法,但其识别准确率仍有待提高。本文以城市环境声音作为研究对象,通过对声音信号进行预处理、声音数据增强、特征提取和设计分类器模型并训练,实现对城市环境声音的识别,具体工作如下:首先,研究了城市环境声音识别技术的基础理论知识,针对城市环境声音中噪声较多,对识别准确率影响较大的问题,使用了时移增强和音高变换增强的声音增强算法,并使用FBank作为声音信号的特征提取方法;其次,针对城市中部分特定声音难以采集而造成数据样本较少的问题,对通道注意力机制进行了调整,设计了一个适用于小样本数据集的深度残差收缩网络模型DRSN14,实验结果表明,DRSN14在公开数据集ESC-10中有着92.5%的识别率,高于一些经典的传统模型和神经网络模型;然后,针对城市中能大量获取到的声音,本文在Peephole神经网络中加入了双向传播机制进行改进,使得神经元在传播时同时使用过去和未来时刻的信息,设计出Bi Peephole网络。在Resnet50中加入了注意力机制和软阈值化,并加入了Bi Peephole层,设计了一个深层神经网络模型Bi Peephole-DRSN。经过实验,Bi Peephole-DRSN在数据集Urban Sound8K和ESC-50中的识别率分别为91.7%和82.9%,比改进之前的Peephole-DRSN提高了0.5和0.6个百分点;最后,根据上述声音识别算法,设计并实现了一个城市环境声音识别系统。通过该系统,可以实现声音数据的导入,并对其进行增强、特征提取,同时可以实现对分类器模型的训练以及声音识别等直观的操作和结果显示。本文提出的两种基于深度学习的城市环境声音识别算法在数据集ESC-10、ESC-50和Urban Sound8K数据集中有着较高的识别率,开发的城市环境声音识别系统具有良好的界面和可操作性,对实际城市环境声音识别任务具有一定的参考价值。