基于卷积稀疏编码模型的音频分类和声音事件检测

来源 :燕山大学 | 被引量 : 0次 | 上传用户:lovedengdai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频信号处理在家庭活动识别、监控系统等领域变得越来越重要。目前大部分音频信号处理问题都使用深度学习方法。深度学习方法中最常用的网络就是卷积神经网络(ConvolutionalNeural Network,CNN)。卷积神经网络有可解释性不强、池化层容易丢失目标对象位置信息的缺点。为了避免这些缺点,该文提出使用卷积稀疏编码模型用于音频信号处理问题。卷积稀疏编码专注于构建信号的稀疏和移位不变表示,可解释性更强,而且模型参数数量更少。
  首先,提出了用于音频分类问题的多层迭代软阈值网络(Multi-layer Iterative Soft ThresholdingNetwork,ML-ISTA-NET)。为了捕获音频事件的时间上下文信息,在ML-ISTA-NET基础上加入了双向门控循环单元(Bidirectional Gate Recurrent Unit,Bi-GRU),提出了MLISTA-GRU网络。为了关注音频事件中重要的帧,在MLISTA-GRU网络基础上进一步加入了注意力机制(Attention mechanism),提出了MLISTA-GRU-Att网络。实验结果表明,ML-ISTA-NET网络、MLISTA-GRU网络和MLISTA-GRU-Att网络的音频分类性能均优于基线系统。
  其次,为了解决声音事件检测任务中的弱监督学习问题,提出了基于多层局部块坐标下降网络(Multi-layer Local Block Coordinate Descent,ML-LoBCoD-NET)的MRNN-Att网络;为了充分利用CNN和ML-LoBCoD-NET网络提取的特征,进而提出了MCRNN-Att网络用于声音事件检测任务。为了解决声音事件检测任务中的半监督学习问题,提出了基于MRNN-Att网络和MCRNN-Att网络的平均教师模型。实验结果表明,提出的四种方法的声音事件检测性能都要优于基线系统。
  最后,提出了用于Log_Mel频谱图去噪的CSCNet-LFISTA网络。CSCNet-LFISTA网络是基于可学习快速迭代软阈值算法(Learned Fast Iterative Soft Thresholding Algorithm,LFISTA)展开的网络。为了提高训练和测试样本之间的数据拟合差异问题,提出了基于LFISTAm算法的CSCNet-LFISTAm网络。实验结果表明,CSCNet-FISTA和CSCNet-FISTAm网络的去噪性能均优于BM3D模型,而且与CSCNet网络相比收敛速度更快,其中CSCNet-LFISTAm网络具有最快的收敛速度。
其他文献
单幅图像去雾的目的是从单幅含雾图像中恢复未损坏的内容并恢复成清晰的无雾图像。传统的去雾算法存在去雾不彻底,颜色失真等问题,图像去雾仍然是最具挑战性的反问题之一,受到很多学者的关注。近年来,深度学习可以处理许多图像相关的视觉任务,并且显示出了比较先进的性能。为了提高单幅图像的去雾效果,该文将用深度学习的方法处理该问题,具体研究内容如下:
  首先,提出了基于YCbCr融合残差稠密网络的单幅图像去雾算法。该文使用卷积神经网络针对YCbCr色彩空间的亮度通道进行端到端的图像去雾,可简单提取出图像含雾的区域
人脸识别,是基于采集到的人的脸部特征信息进行身份识别的一种生物识别技术,属于人工智能和计算机视觉的一个重要研究方向。目前,传统的人脸识别算法需要经过复杂的计算过程,且最后实现的人脸识别的准确率较低。为了提高人脸识别方法的性能,该文从卷积神经网络的角度来对该问题展开研究和分析,具体研究内容如下:
  首先,该文从轻量级网络的角度出发,提出基于深度可分离卷积和注意力机制的轻量级网络人脸识别方法。该方法设计了融合深度可分离卷积和注意力机制的逆残差块,在减少网络参数量的同时加强特征的表示能力。注意力机制能够
逆合成孔径雷达(Inverse Synthetic Aperture Radar,ISAR)成像技术是利用目标与雷达之间的相对运动来形成高分辨率图像。ISAR不仅可以克服雾雪等恶劣天气,同时也可以在夜间无自然光条件下工作,在目标识别、辨别和分类等军事领域发挥着重要的作用。当目标具有简单运动时,通过传统成像算法可以获得高分辨率雷达图像,但是当目标具有复杂运动时,通过传统算法难以重建高质量的图像。基于此,该文提出了基于深度学习的ISAR自聚焦成像算法。具体研究内容如下:
  首先,建立ISAR成像几何模
利用稀疏表示理论对图像进行研究主要是针对图像块进行单独编码,块与块之间存在重叠部分,忽视了图像块之间具有一致性的特点。利用卷积稀疏表示,可以将整个图像看做是一个整体,对其进行稀疏编码。基于深度学习思想的多层卷积稀疏编码(MLCSC)模型的多层基追踪问题和多层字典学习问题成为研究热点,但这些问题都是基于傅里叶域的交替方向乘子法(ADMM)的传统基追踪算法,ADMM算法不能容易地扩展到多层情况。针对这些不足,该文对多层卷积稀疏编码模型进行了研究和改进,主要工作内容如下:
  首先,在多层快速迭代软阈值算
微表情识别在近几年成为了计算机视觉领域的热点课题,微表情在测谎方面有着重要应用。迄今为止,微表情识别任务还面临着识别率不高、数据集难以收集导致的微表情样本数量不足,以及由于各类微表情诱发难易程度不同导致的样本数量不平衡的挑战。该文从传统特征提取方法入手过渡到使用深度学习的方法提取微表情的特征,具体来说,主要贡献如下:
  首先针对微表情总是发生在局部的问题,对经典的来自三个正交平面的局部二值模式(Local Binary Patterns from Three Orthogonal Planes,L
图像检索在图像理解和计算机视觉任务中是一个具有挑战性的课题。在图像检索中存在“语义鸿沟”的问题,即计算机通过提取图像特征所理解的图像语义与人所感知到的图像语义之间存在差距。而且在大规模图像检索中如何实现快速检索成为了待解决的难题。该文充分利用图像语义信息来解决图像检索中语义鸿沟的问题,并且结合哈希算法来实现大规模图像数据集的快速检索。
  首先,该文研究了一种基于图像视觉信息和语义信息的图像检索算法。该算法利用图像特征结合哈希编码来描述图像视觉特征,并且利用词向量生成模型将图像语义词转换为词向量来描
同轴数字全息技术是利用光电传感器(Charge-coupled device,CCD)记录干涉频谱,再通过计算机模拟光学衍射过程来实现物体的再现。由于同轴全息物光与参考光同路,导致再现过程中出现共轭像与原始像叠加。该文主要围绕基于深度学习的同轴数字全息共轭像去除方法进行研究,具体研究内容如下:
  首先,为学习通道之间的相互依赖性进行建模来自适应地重新缩放每个通道的特征,提出了一种卷积通道注意力网络,在网络的卷积层后面加入通道注意力机制,可以对卷积层输出的通道特征引起特定的关注,更专注于有用的特征,
近年来,基于弱标签音频数据的弱监督学习已经成为声音事件检测中的热点研究问题。该文主要针对声音事件检测中的弱监督学习问题、普通卷积受限于局部感受野、标记数据不足和音频中声音事件的重叠问题展开研究,通过对深度神经网络进行改进,来提高声音事件检测性能。
  首先,为了将声音事件从背景场景或噪声中分离出来,提出了基于时频分割网络模型的残差期望最大化注意力网络(Res2Net Expected Maximum Attention Network,Res2EMANet)进行弱监督声音事件检测。针对一般的卷积神经
【内容摘要】面对新形势,国企党建工作应积极探索提高科学化水平的新思路、新方法,走科学管理的发展道路,开创国企党建工作的新局面。本文从三方面分别论述了国企党建工作的新思路,旨在深化党的建设成果,提高国企党建工作的科学化水平。  【关 键 词】科学发展观 科学管理 国企 党建 党组织  科学发展观是中国经济和社会发展的重要指导方针,也是党的建设工作在国有企业中的指导方针。在新形势下,只有坚持科学发展观
期刊
雨图可以表示为干净背景部分和雨线的线性叠加。单幅图像去雨是一个不适定的层分割问题,目的就是从含雨图像中分割出干净的背景部分。传统的单幅图像去雨算法计算成本高,恢复出的无雨图像存在颜色失真和细节丢失等问题。近年来,基于深度学习的方法在图像领域得到广泛应用。为了提高单幅图像去雨算法的性能,该文利用卷积神经网络对该问题进一步展开研究和分析,具体研究内容如下:
  首先,提出基于双递归分形网络的快速单幅图像去雨算法。一方面,为了不增加网络的参数,分形网络递归多次,共享参数,减小网络的训练难度。并且分形网络选