论文部分内容阅读
近年来,随着智慧城市建设的推进,人们对安防领域也有了更高的需求,对视频中的行为进行识别越来越成为重要的研究方向。传统的视频行为识别方法中,需要手工设计特征,而基于深度学习的视频行为识别方法则可以让计算机自动学习出有用的特征。除了智能安防领域外,视频行为识别技术也广泛应用于人机交互游戏、医疗看护、行为再识别等领域。在当前大多数基于深度学习的视频行为识别方法中,均同等对待网络提取的特征,在识别过程中没有关注对识别结果起重要作用的特征,论文提出将计算机视觉领域的两种注意力机制引入,搭建了两种视频行为识别网络。论文构建了基于压缩奖惩机制的视频行为识别网络。网络以时间分段网络为基本框架,时间分段网络中的时间与空间网络均将基于压缩奖惩机制的残差网络作为基本网络,通过压缩与奖惩操作,在通道维度上对网络提取到的特征进行加权,赋予特征不同权重以提高识别准确率。时间分段网络首先将视频平均分为三段,从每段提取堆叠光流与RGB视频帧分别作为时间与空间网络的输入,并对视频行为作出初步预测,然后融合每个片段的时间与空间网络的预测结果得到视频级的时间与空间网络预测,最后融合时空网络的视频级预测结果得到最终的分类结果。基于压缩奖惩机制的视频行为识别网络训练时,首先在大规模数据集ImageNet上预训练基于压缩奖惩机制的空间网络,然后采用跨模态训练方法预训练基于压缩奖惩机制的时间网络,最后将预训练好的时间与空间网络参数作为初始值训练基于压缩奖惩机制的时间与空间网络,融合时空网络的预测结果得到最终的分类结果。在UCF101与HMDB51数据集上进行了实验,结果表明识别准确率获得了提高。论文构建了基于卷积注意模块的视频行为识别网络。网络以时间分段网络为基本框架,为了更符合人类对视频行为的识别与理解,时间分段网络中的时间与空间网络采用不同的网络结构。时间网络采用基于卷积注意模块的BN-GoogleNet作为基础网络,空间网络采用基于卷积注意模块的残差网络作为基础网络。通过卷积注意模块,在通道与空间维度上对网络提取的特征进行加权,赋予特征不同权重以提高识别准确率。网络预训练策略与基于压缩奖惩机制的视频行为识别网络的预训练策略相同。在UCF101与HMDB51数据集上进行了实验,结果表明识别准确率获得了提高。