论文部分内容阅读
随着互联网技术和多媒体技术的蓬勃发展,视频类媒介方式已经被普遍地应用到人们的生活和工作中。深度学习在计算机视觉领域有巨大的优势,在视频描述、细粒度图像的分类等方面实现的效果是传统方法难以企及的,因此,深度学习技术在行为识别领域的应用成为国内外研究者的热点研究方向。行为识别技术的实质是对视频帧的分类,目前行为识别技术中常用的模型都是基于卷积神经网络实现的,卷积神经网络被成功的应用到了图片分类问题中。在本文中,以3D卷积神经网络为基础,搭建了新型的行为识别模型,能够更加有效地提取视频中的内容和视频运动特性,并且通过借鉴人类视觉注意力机制处理海量信息的方式,将注意力机制引入到模型中,使模型更注重视频中重要的特征信息而忽略冗余信息,最后在行为识别数据集上对模型进行了实验验证和分析。论文主要内容包括:(1)设计了一个时空双流CNN-GRU神经网络架构。针对原始双流架构中使用卷积神经网络提取视频的空间特征和时间特征而导致视频信息利用不足并且无法真正学习视频的时序性特征的问题,论文提出了基于3D卷积神经网络的双流神经网络与GRU(Gated Recurrent Unit)网络相结合建立的更深层次网络的架构。该架构在空间域和时间域上更有效的提取视频的动作信息,让模型更多的表达视频的运动信息和时间特征,并且能更强地表达视频的时序性特征。最后在行为识别数据集UCF101和HMDB51上对本文提出的框架进行实验验证,证明了本文提出的时空双流CNN-GRU神经网络基础架构与同类方法相比,识别率得到了一定的提升。(2)改进了时空双流CNN-GRU神经网络架构的损失函数。针对现有模型难以处理行为识别数据集中存在大量的噪声和异常值问题,论文通过研究信息论中的步长因子与误差信号之间的关系,结合相关熵可以处理非高斯噪声和脉冲噪声的优点,提出自适应双曲正切相关熵损失函数微调算法,从而提高时空双流CNN-GRU神经网络架构在加噪数据集上的鲁棒性。对UCF101数据集进行加噪处理后,实验证明了本文提出的算法在非加噪数据集上与现有领先算法的识别率相差不大,但是在加噪数据集上本文提出的算法的识别率比现有领先算法提高了0.19%,说明本文提出的算法对加噪数据集具有较好的鲁棒性。(3)论文将注意力机制引入到时空双流CNN-GRU神经网络中,该机制对空间流和时间流特征向量进行建模,通过监督的方式将计算得到的Attention分数分配给每个特征向量,代替传统的空间流特征向量和时间流特征向量最大值或者均值融合方式,对空间流特征向量和时间流特征向量进行自适应加权融合。基于监督的特征自适应加权融合方式使模型在训练过程中更加关注重要的特征并且减少模型中的冗余信息。最后在行为识别数据集UCF101和HMDB51上进行了实验,证明了论文提出的基于注意力机制的时空双流CNN-GRU神经网络基础架构的识别率达到领先的水平。