【摘 要】
:
环境声音识别(Environment sound recognition)是指让计算机设备以一定的算法方式对采集到的环境声音进行分类与处理的过程,其在智能机器人、移动设备监测、自动驾驶、环境安全监控、智能家居、智慧城市等领域都有广泛的应用前景,是计算机听觉(Computer Audition)领域重要的研究方向之一。环境声音分类和增强是声音识别领域重要的研究内容。随着人工智能技术的不断发展,神经网
论文部分内容阅读
环境声音识别(Environment sound recognition)是指让计算机设备以一定的算法方式对采集到的环境声音进行分类与处理的过程,其在智能机器人、移动设备监测、自动驾驶、环境安全监控、智能家居、智慧城市等领域都有广泛的应用前景,是计算机听觉(Computer Audition)领域重要的研究方向之一。环境声音分类和增强是声音识别领域重要的研究内容。随着人工智能技术的不断发展,神经网络逐渐成为了该领域的重要研究方法。与传统的机器学习方法相比,神经网络方法具有算法模型简单、泛化效果好、鲁棒性强、可迁移性强等优势。但分类算法仍存在识别精度低、对设备性能要求高的问题;增强算法也主要面向语音增强、乐器声音分离等场景,环境声音增强算法仍不成熟。围绕以上存在的问题,本文有下面的主要研究内容:首先,通过bottleneck模块改进CNN以降低网络参数量和运算量;通过引入SE注意力机制模型以提高网络精度。论文中设计了用于环境声音分类的BN-CNN、SE-CNN small 和 SE-CNN large 神经网络模型。然后,对于不同的分类结果选用不同的增强网络以进行声音增强处理。本文基于生成对抗网络(GAN)的方法进行了声音增强的算法研究,通过引入encoder-decoder的直连接结构提高生成网络的性能;通过引入噪声向量z提高了网络的鲁棒性。该网络可通过重新训练实现对其他类别环境声音增强的扩展。接下来,由于目前开源声音数据集不适合做环境声音增强,论文创建了 ESCS数据集。该数据集包含两个子数据集,分别用于声音分类(12个小类,5个大类)和声音增强(10个小类,包含带噪和不带噪版本)的算法研究,共包含14.6万条44.1KHz采样、8bit量化、8s时长的环境声音样本。同时该数据集提供原始数据可根据需要自行处理。在该数据集下,声音分类的细分类F1精度最高提升4.90%,粗分类F1精度最高提升3.46%,运算量最多降低26.08%,参数量最多降低79.05%;通过生成网络和判别网络相互对抗训练的方法,在十种不同的环境声音上FID指标最好为0.218;AMT指标最高均值为8.12,均获得了良好的环境声音增强效果。最后设计并实现了可视化的环境声音识别软件。该软件使用tkinter、librosa、pyaudio等python库,由输入模块、信号预处理模块、声音识别模块、声音增强模块、输出显示模块构成,实现了环境声音分类和声音增强的功能。
其他文献
稀疏码多分址(SCMA)技术能够提高频谱利用率,是5G无线通信中多址接入方案的重要候选者。信道估计是SCMA通信的关键过程,其精度和复杂度对系统有很大影响,但是经典的信道估计算法存在计算量大、性能差等问题,导致这些算法在SCMA的应用有局限性,所以研究适用于SCMA系统的信道估计算法有重要意义。而深度学习具有适应性强、高速并行等优点,深度学习与无线通信结合是目前信号处理领域的热点,并取得瞩目的效果
近年来,随着深度学习的发展,人工智能与人们的生活越来越紧密,在人脸识别、自动驾驶、医疗等领域已经得到了广泛的应用。与此同时,人工智能的安全问题也越来越突出。深度学习模型极易遭到对抗样本的攻击,攻击者只需对图像进行一些人眼无法识别的改动即可成功欺骗深度学习模型,从而导致深度学习模型给出错误的结果,进而引发极其严重的后果。针对这些攻击,研究了以下三种算法,其主要功能是通过对分类器网络增加一个额外的附加
多功能电子系统是由若干具有多种功能的电子设备所组成的多站点作战系统,各站点可协同工作,系统可根据任务需求对多个目标区域进行实时监视以应对潜在威胁,在现代战场上发挥着重要作用。各站点的分布将直接影响多功能电子系统的性能,通过优化站点位置可以有效提升系统的性能。然而,目前针对性能偏好要求下的站点优化配置的研究还不够充分,是一个亟需解决的问题。本文将基于粒子群算法对站点配置问题进行深入研究。具体内容如下
合成孔径雷达(Synthetic Aperture Radar,SAR)具有全天时、全天候的特点,在军用和民用领域有巨大的应用价值和研究意义。但是,SAR成像过程中,回波相干叠加、成像资源不足、雷达系统误差以及平台相对运动等不利因素会导致SAR图像出现质量退化效应,主要表现为斑点状噪声和分辨率下降,严重影响了SAR图像的信息提取与解释。近年来,深度学习飞速发展,在图像处理领域取得了突破性进展,对于
车位监测系统成本过高是制约传统停车场智能化改造的最大因素。本文通过分析市面上现有车位监测系统,研究出基于无线通信链路的车位监测系统,相比有线通信链路的车位监测系统具有更低的成本。为了提高车位监测系统的整体性价比,本文通过相关技术对比,最终确定以微波雷达传感器作为本系统的车位监测传感器,以ZigBee协议为本系统的网络通信协议,并根据停车场应用场景完成了车位监测传感器和ZigBee网络的系统参数设计
在计算机视觉研究领域,人体姿态估计技术是动作分析、人机交互、智能监控、医疗辅助分析、工业测量和电影特效制作等诸多应用的关键技术。随着深度学习以及卷积神经网络被应用于各种领域,该技术得到长足的发展,使用卷积神经网络模型来进行人体姿态估计的研究越发流行。本文基于人体姿态估计最新的网络模型,改进关键点定位算法,从两个方向出发研究人体姿态估计的问题。第一个方向针对于现在卷积神经网络越发复杂,为了能够获取更
目标跟踪问题一直是军事、导航等领域的重要研究内容。随着无线传感器网络(Wireless Sensor Networks,WSNs)的快速发展,点目标的分布式跟踪技术得到了广泛关注。由于非线性系统比线性系统在实际工程中的应用更广泛,非线性系统中点目标的分布式跟踪方法逐渐成为研究焦点。随着传感器技术的发展,扩展目标的分布式跟踪技术也在海上监管、无人驾驶等新兴领域具有巨大的潜在价值。本文主要研究WSNs
无线传感器网络是一个低成本、灵活性强、易于部署的自组织网络,在目标探测、事件监测等军民领域具有广泛的应用前景。通常,无线传感器网络节点面临着计算能力、能量资源的限制。因此,如何减少传输数据冗余,降低节点能耗,保护数据安全成为无线传感器网络研究的热点问题。数据聚合是由网络中的传感器节点收集数据,通过上层聚合节点对收集的数据进行处理,是传感器网络数据处理的重要手段。目前,基于数据平均等简单的数据聚合算
随着信息技术及电子战的迅猛发展,雷达信号自动调制识别作为电子对抗侦察中重要一环,成为了目前信息化电子战的研究热点。传统的雷达信号自动调制识别方法主要采用脉冲描述字浅层特征和模板匹配过程。当面对日益复杂的战场电磁环境,传统方法往往计算量较大且依赖于专家知识,识别性能难以满足要求。近年来,伴随深度学习的兴起和广泛应用,深度学习神经网络被引入雷达信号识别方法中,尽管基于深度学习的识别方法取得了不错的识别
多输入多输出(Multiple input multiple output,MIMO)雷达是一种新型雷达,用来应对日益复杂的战场环境。MIMO雷达相较于传统的雷达具有更好的波形分集能力,并且可以改善目标识别和参数估计等各方面的性能表现。MIMO雷达根据天线阵列的放置情况来分为集中式和分布式。两者均可通过发射正交波形来提高性能,其中发射正交波形可以让集中式MIMO雷达在接收端形成虚拟孔径来提高参数估