基于深度学习的城市环境声音识别算法研究及系统实现

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:smiletonyfrank
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着城市建设的不断发展,城市环境发生了巨大的变化,城市中存在着各种各样的声音,如:汽车鸣笛声、发动机声、碰撞声、警笛声、吵闹声和孩童哭声等。在这些声音中,不同的声音蕴含着不同的信息,对城市环境声音进行识别以满足不同应用需求,具有重要的现实意义。目前,虽然有众多研究者对城市环境声音识别技术进行了研究,并提出了具体的识别算法,但其识别准确率仍有待提高。本文以城市环境声音作为研究对象,通过对声音信号进行预处理、声音数据增强、特征提取和设计分类器模型并训练,实现对城市环境声音的识别,具体工作如下:首先,研究了城市环境声音识别技术的基础理论知识,针对城市环境声音中噪声较多,对识别准确率影响较大的问题,使用了时移增强和音高变换增强的声音增强算法,并使用FBank作为声音信号的特征提取方法;其次,针对城市中部分特定声音难以采集而造成数据样本较少的问题,对通道注意力机制进行了调整,设计了一个适用于小样本数据集的深度残差收缩网络模型DRSN14,实验结果表明,DRSN14在公开数据集ESC-10中有着92.5%的识别率,高于一些经典的传统模型和神经网络模型;然后,针对城市中能大量获取到的声音,本文在Peephole神经网络中加入了双向传播机制进行改进,使得神经元在传播时同时使用过去和未来时刻的信息,设计出Bi Peephole网络。在Resnet50中加入了注意力机制和软阈值化,并加入了Bi Peephole层,设计了一个深层神经网络模型Bi Peephole-DRSN。经过实验,Bi Peephole-DRSN在数据集Urban Sound8K和ESC-50中的识别率分别为91.7%和82.9%,比改进之前的Peephole-DRSN提高了0.5和0.6个百分点;最后,根据上述声音识别算法,设计并实现了一个城市环境声音识别系统。通过该系统,可以实现声音数据的导入,并对其进行增强、特征提取,同时可以实现对分类器模型的训练以及声音识别等直观的操作和结果显示。本文提出的两种基于深度学习的城市环境声音识别算法在数据集ESC-10、ESC-50和Urban Sound8K数据集中有着较高的识别率,开发的城市环境声音识别系统具有良好的界面和可操作性,对实际城市环境声音识别任务具有一定的参考价值。
其他文献
学位
随着智慧城市的建设和发展,基于影像的城市视觉定位应用越来越广泛。但是城市街景影像覆盖范围的扩大使得影像的数据量变的更加庞大,街景包含的场景也更加复杂,海量的数据场景给视觉定位带来了巨大的挑战。本文从视觉定位中城市街景影像入手,研究利用深度学习的方法对街景影像进行处理后再做匹配,提升视觉定位匹配环节的准确率以提高基于影像的城市视觉定位整体的效率和准确率,对基于影像的城市视觉定位具有重要意义。本文主要
学位
学位
湖泊公园作为城市典型的蓝绿空间,提供着重要的生态调节服务与景观游憩服务,具有多种环境及社会效益,对改善城市游憩环境、提高人类福祉和公共健康大有裨益。然而在城市水资源危机和快速城市化的背景下,湖泊的生态环境遭到破坏,影响了城市人居环境的健康可持续发展,因此保护和改善城市湖泊资源,促进湖泊公园景观质量提升,已经成为城市建设亟待解决的课题。从公众感知偏好视角挖掘景观特质,揭示景观视觉要素对游人潜在情感倾
学位
学位
学位
粮食是满足人民温饱、促进经济发展、维持社会长治久安的重要保障。水资源作为粮食生产中不可或缺的因素,空间上分布不均,南北方水资源量差距明显,且粮食主产区存在向北方转移的趋势,进一步加剧了北方水资源短缺。虽然我国口粮可以自给,但2019年全国综合粮食自给率已下降到83%。因此,作为拥有14亿人口的大国,需对粮食安全和水资源短缺问题引起高度重视。由于我国粮食主产区和主销区存在距离,通过合理的粮食运移在实
学位
学位
学位
社区生活圈作为居民生活的基本单元,是城市发展研究的重要领域。本文首先通过计量分析和人工检阅结合的述评方式对社区生活圈、深度学习空间数据采集分析、人本角度生活圈街道等研究热点进行分类整理与总结归纳;其次,对现状研究进行延伸提出一套研究框架,并将框架运用于深度学习构建视觉环境评价与居民感知影响机制;最后,总结世界街道图像分割开源数据集技术途径,并对未来发展方向进行展望,为深度学习现有生活圈规划设计理论
会议