论文部分内容阅读
音频信号处理在家庭活动识别、监控系统等领域变得越来越重要。目前大部分音频信号处理问题都使用深度学习方法。深度学习方法中最常用的网络就是卷积神经网络(ConvolutionalNeural Network,CNN)。卷积神经网络有可解释性不强、池化层容易丢失目标对象位置信息的缺点。为了避免这些缺点,该文提出使用卷积稀疏编码模型用于音频信号处理问题。卷积稀疏编码专注于构建信号的稀疏和移位不变表示,可解释性更强,而且模型参数数量更少。
首先,提出了用于音频分类问题的多层迭代软阈值网络(Multi-layer Iterative Soft ThresholdingNetwork,ML-ISTA-NET)。为了捕获音频事件的时间上下文信息,在ML-ISTA-NET基础上加入了双向门控循环单元(Bidirectional Gate Recurrent Unit,Bi-GRU),提出了MLISTA-GRU网络。为了关注音频事件中重要的帧,在MLISTA-GRU网络基础上进一步加入了注意力机制(Attention mechanism),提出了MLISTA-GRU-Att网络。实验结果表明,ML-ISTA-NET网络、MLISTA-GRU网络和MLISTA-GRU-Att网络的音频分类性能均优于基线系统。
其次,为了解决声音事件检测任务中的弱监督学习问题,提出了基于多层局部块坐标下降网络(Multi-layer Local Block Coordinate Descent,ML-LoBCoD-NET)的MRNN-Att网络;为了充分利用CNN和ML-LoBCoD-NET网络提取的特征,进而提出了MCRNN-Att网络用于声音事件检测任务。为了解决声音事件检测任务中的半监督学习问题,提出了基于MRNN-Att网络和MCRNN-Att网络的平均教师模型。实验结果表明,提出的四种方法的声音事件检测性能都要优于基线系统。
最后,提出了用于Log_Mel频谱图去噪的CSCNet-LFISTA网络。CSCNet-LFISTA网络是基于可学习快速迭代软阈值算法(Learned Fast Iterative Soft Thresholding Algorithm,LFISTA)展开的网络。为了提高训练和测试样本之间的数据拟合差异问题,提出了基于LFISTAm算法的CSCNet-LFISTAm网络。实验结果表明,CSCNet-FISTA和CSCNet-FISTAm网络的去噪性能均优于BM3D模型,而且与CSCNet网络相比收敛速度更快,其中CSCNet-LFISTAm网络具有最快的收敛速度。
首先,提出了用于音频分类问题的多层迭代软阈值网络(Multi-layer Iterative Soft ThresholdingNetwork,ML-ISTA-NET)。为了捕获音频事件的时间上下文信息,在ML-ISTA-NET基础上加入了双向门控循环单元(Bidirectional Gate Recurrent Unit,Bi-GRU),提出了MLISTA-GRU网络。为了关注音频事件中重要的帧,在MLISTA-GRU网络基础上进一步加入了注意力机制(Attention mechanism),提出了MLISTA-GRU-Att网络。实验结果表明,ML-ISTA-NET网络、MLISTA-GRU网络和MLISTA-GRU-Att网络的音频分类性能均优于基线系统。
其次,为了解决声音事件检测任务中的弱监督学习问题,提出了基于多层局部块坐标下降网络(Multi-layer Local Block Coordinate Descent,ML-LoBCoD-NET)的MRNN-Att网络;为了充分利用CNN和ML-LoBCoD-NET网络提取的特征,进而提出了MCRNN-Att网络用于声音事件检测任务。为了解决声音事件检测任务中的半监督学习问题,提出了基于MRNN-Att网络和MCRNN-Att网络的平均教师模型。实验结果表明,提出的四种方法的声音事件检测性能都要优于基线系统。
最后,提出了用于Log_Mel频谱图去噪的CSCNet-LFISTA网络。CSCNet-LFISTA网络是基于可学习快速迭代软阈值算法(Learned Fast Iterative Soft Thresholding Algorithm,LFISTA)展开的网络。为了提高训练和测试样本之间的数据拟合差异问题,提出了基于LFISTAm算法的CSCNet-LFISTAm网络。实验结果表明,CSCNet-FISTA和CSCNet-FISTAm网络的去噪性能均优于BM3D模型,而且与CSCNet网络相比收敛速度更快,其中CSCNet-LFISTAm网络具有最快的收敛速度。