论文部分内容阅读
随着计算机软硬件技术的发展,视频数据呈指数式增长,如何有效地管理和利用视频数据是当前亟待解决的问题,因此作为视频分析关键技术的行为识别受到研究人员的青睐。行为识别任务的主要目的是分析视频片段中人的行为,并给出相应的标签。虽然行为识别受到广泛关注和研究,但由于存在视角变化、个体行为差异等客观因素,导致基于视频的行为识别研究进展缓慢。本文从如何提取视频级鲁棒特征为起点,针对行为自身的特点以及当前研究工作中存在的一些问题,开展了行为识别相关研究,主要工作如下:(1)提出了基于时空注意力机制的行为识别模型。记录行为的视频由一系列图像帧所构成,图像帧编码了行为在某一时刻的状态,连续的多帧图像能够表示小的运动阶段,所有运动阶段组成一个完整行为。为了有效提取视频级特征,该模型采用了两种注意力机制,分别用于学习图像帧特征以及视频级特征转移。首先,空间注意力机制用于定位图像帧中与行为相关的区域,并抑制无关信息的表达。同时,为了准确定位行为发生的位置,采用图像帧的卷积层特征计算注意力热度图。其次,行为过程的各个阶段对区分行为类别有不同的重要程度,因此设计了时序注意力模块,用于学习不同行为阶段的时序权重分布,并在训练阶段加入对时序权重的正则项,使得权重分布更加合理。模型包含两个独立的网络,分别以图像帧和堆叠光流作为输入,在测试阶段采用得分融合的方式得到最终的分类结果。实验结果表明,提出的方法能够有效提取视频级特征,相比于其他方法有更高的分类准确率。(2)光流图像作为图像帧的辅助信息,已被应用到许多相关工作中,但是得分融合的方式缺乏了图像帧特征与光流特征之间的交互,取得的效果并不理想。基于上述问题,提出了基于多模态时序注意力机制的行为识别模型。首先,设计了全局时序注意力池化层对多帧图像特征进行融合,由于行为前后之间互相关联,采用双向LSTM对行为进行时序建模。然后,图像帧和光流作为两个不同模态的数据,存在两种时序权重,会得到两个模态下的视频级特征。其次,融合图像帧特征和光流特征作为混合特征,输入到全局注意力池化层,也会得到对应的视频级特征。此时,再融合三种视频级特征作为视频的唯一特征表达,并基于此进行分类。为了加快模型收敛,训练过程分为两个阶段。第一阶段,独立训练基于图像帧的空间深度网络和基于堆叠光流的时序深度网络;第二阶段固定空间深度网络和时序深度网络的参数,只对融合特征的网络进行训练。此外,由于连续图像帧之间差异较小,训练和测试阶段利用稀疏采样的方式选取10帧图像或光流代表整个视频。该模型在UCF101和HMDB51两个数据集上分别取得了 94.5%和71.1%的分类精度。