论文部分内容阅读
随着摄像监控设备以及智能移动设备的普及,安防、娱乐等领域视频数据呈现爆炸式增长,利用人工智能技术理解视频内容成为建设“智慧城市”的重要环节。作为视频分析技术的重要分支,图像序列(视频)识别是计算机视觉中的热点研究方向,在人机交互、智能监控、自动驾驶等领域都有着广泛的应用。随着深度学习的发展,尤其是回复式神经网络的“记忆”功能,基于回复式神经网络的图像序列(视频)识别取得了显著成果。然而,面对视频外观变化、背景变化、质量低下等干扰因素的影响,利用回复式神经网络学习图像序列中具有辨别力的特征表示,仍然极具挑战性。本文围绕基于回复式神经网络的图像序列(视频)识别问题展开相关研究。首先,通过步态识别(工作一)解决视频分析中的“是谁”问题;在此基础上,从三个方面(工作二、三、四)对人体行为进行识别,解决视频分析中的“做了什么”问题。本文的四项研究工作以及贡献包括:(1)人体步态识别算法受限于外在形象的差异、拍摄角度的变化、背景内容的复杂等因素,往往识别效果不佳。本文提出基于记忆学习的步态识别算法。首先,作为前期工作,手动标注少量人体步态关节点数据,包括正样本和负样本(不存在人物的数据)。然后,利用标注的人体步态数据,迁移已有的人体姿态估计模型,也就是微调模型参数,使得姿态估计算法能够处理人体步态图像,最终获取人体步态数据集的2D关节点信息。接着,使用回复式神经网络,记忆学习步态关节点序列数据,实现人体步态的识别。最后,在不同视角、外形变换的两个公共步态识别数据库上评估所提算法,验证了基于记忆学习的步态识别算法的有效性。(2)人体关键点位置的持续移动可以刻画出各种复杂的行为动作。传统的基于骨架信息的行为识别通常设计复杂的手工特征或者通过深度学习技术学习深度特征对行为动作进行识别。不同于直接利用学到的特征构造行为分类器,本文试图通过预测行为序列的发展趋势来识别人体骨架行为。本文提出基于序列预测学习的骨架行为识别算法。该算法充分利用骨架序列之间的时间依赖关系,基于行为发展趋势来分类人体骨架行为。首先,利用回复式神经网络为每一类型的行为构造专属的行为趋势预测器,构成行为预测器集合。给定输入序列,每个预测器都可以预测输出下一时刻的人体姿态。接着,随着测试样本的序列输入,集合中的行为预测器会根据提前设定的移除规则,判断自己是否匹配该测试样本。最终,集合中留下的行为预测器的标签即为测试样本的分类结果。在单人和多人交互的公共骨架行为数据集上的评估结果表明,行为发展趋势作为人体行为的重要特征,能够很好地区分不同的人体动作。(3)基于视频的行为识别算法经常受到背景混乱、光照变化等各种干扰信息的影响,导致算法性能不佳。基于深度学习的方法能够学习到鲁棒的行为特征,但是这些特征依然会掺杂无关信息。为了有选择性地关注与视频行为相关的重要线索,本文提出基于3D注意力双流结构的行为识别算法。该算法从三个方面有选择性地关注对识别视频行为有用的时空特征。具体地,基于已有的深度学习模型,提取视频的帧间光流特征和帧内空间特征。然后,设计一种高效的3D注意力模块。该模块可以沿着视频深度特征的通道方向、空间方向、时间方向优化原始的特征表示。接着,时间分割池化过程用于处理优化后的时空特征,从而达到压缩时间维度、综合学习视频数据的目的。经过基于回复式神经网络的双流网络处理,最终学习到具有区别力的时空特征,分类视频中的行为活动。另外,本文收集了一个新的乒乓球动作数据集,在该数据集和HMDB51行为数据集上,所提算法均获得了具有竞争力的行为识别效果。(4)对于跨数据集的视频行为识别任务,源域和目标域数据分布往往不同,而域自适应的目标就是解决域偏移问题,从源域数据中学习数据模型,迁移原有知识用于处理目标域任务。域对齐作为常用的学习域间不变特征的方法,往往因为缺乏目标域数据标签而成为一项极具挑战的任务。本文提出基于类协同学习的无监督领域自适应行为识别算法。该算法由三部分构成:共享的双流网络,基于类协同学习的伪标签预测模型和目标域分类器。首先,在协同学习的启发下,本文提出一种类协同学习的伪标签标记算法。然后,在类别对齐的约束条件下,逐步学习源域和目标域的域不变特征表示。接着,利用学到的目标域样本伪标签,训练针对目标域任务的特定分类器,用于对目标域数据的分类识别。最后,从四个公共视频行为数据集中挑选出具有相似类别标签的行为活动,组成四组互为源域和目标域的行为数据集。实验结果表明,本文提出的跨数据集的视频行为识别算法取得了很好的识别效果,能够自适应地实现跨数据集知识迁移。