论文部分内容阅读
随着深度学习在图像领域取得突破性进展,视频领域吸引了越来越多研究者的关注。视频理解已成为人工智能、计算机视觉领域一个重要的研究课题,其中的两大基本任务分别为剪切视频行为识别以及未剪切视频行为定位。剪切视频行为识别是指判断一段经过剪切的视频是否属于某类预先定义好的行为类别。未剪切视频行为定位是指在一段未经剪切的视频中寻找可能有行为发生的视频片段,并且确定其起始时间。这两大任务在智能监控、医疗健康、自动驾驶和机器人等领域都有着非常广阔的应用前景。虽然广大研究者在行为识别与行为定位领域已经做了大量研究工作,但该领域仍然面临着视角变化,时空建模等多个难题。首先,视频拍摄过程中可能存在相机抖动、视角变化、背景干扰和时间跨度不同等问题,因此很难在视频中准确地定位行为片段。其次,行为是一种时序演变过程,时序信息在行为识别与行为定位中至关重要,如何充分利用时序上下文信息以及如何挖掘时空关系都亟待进一步研究。针对上述问题,本文提出了一系列算法,主要贡献如下:提出了一种多视角注意力的算法,完成一段剪切视频的行为识别。该算法在3D卷积神经网络的基础上通过引入多视角注意力机制,使模型能自适应地学习到更精细的时空特征。同时引入光流信息,通过双流融合结合多模态的方法进一步提高模型的识别准确率。本文在两个通用的行为识别数据库上验证了该模型的有效性。提出了一种联合局部与全局的特征学习算法,从未剪切的视频中提取可能包含行为的视频片段。目前基于卷积网络的行为定位算法大多注重提取局部特征,然而不同的行为持续时间不同,单一尺度的卷积无法提取全局的、精细的边界信息,造成定位的时序边界模糊不精确。因此,本文设计了一种联合局部与全局的特征学习算法,关注局部细节的同时又关注全局信息。同时,视角变换、相机抖动也是时序边界定位不准的重要因素,为此,本文通过加入注意力机制,引导模型排除干扰信息,学习行为变化本身。本文在两个通用的行为定位数据库上验证了该模型的有效性。