基于深度学习的行为识别与定位

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:iamformywish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习在图像领域取得突破性进展,视频领域吸引了越来越多研究者的关注。视频理解已成为人工智能、计算机视觉领域一个重要的研究课题,其中的两大基本任务分别为剪切视频行为识别以及未剪切视频行为定位。剪切视频行为识别是指判断一段经过剪切的视频是否属于某类预先定义好的行为类别。未剪切视频行为定位是指在一段未经剪切的视频中寻找可能有行为发生的视频片段,并且确定其起始时间。这两大任务在智能监控、医疗健康、自动驾驶和机器人等领域都有着非常广阔的应用前景。虽然广大研究者在行为识别与行为定位领域已经做了大量研究工作,但该领域仍然面临着视角变化,时空建模等多个难题。首先,视频拍摄过程中可能存在相机抖动、视角变化、背景干扰和时间跨度不同等问题,因此很难在视频中准确地定位行为片段。其次,行为是一种时序演变过程,时序信息在行为识别与行为定位中至关重要,如何充分利用时序上下文信息以及如何挖掘时空关系都亟待进一步研究。针对上述问题,本文提出了一系列算法,主要贡献如下:提出了一种多视角注意力的算法,完成一段剪切视频的行为识别。该算法在3D卷积神经网络的基础上通过引入多视角注意力机制,使模型能自适应地学习到更精细的时空特征。同时引入光流信息,通过双流融合结合多模态的方法进一步提高模型的识别准确率。本文在两个通用的行为识别数据库上验证了该模型的有效性。提出了一种联合局部与全局的特征学习算法,从未剪切的视频中提取可能包含行为的视频片段。目前基于卷积网络的行为定位算法大多注重提取局部特征,然而不同的行为持续时间不同,单一尺度的卷积无法提取全局的、精细的边界信息,造成定位的时序边界模糊不精确。因此,本文设计了一种联合局部与全局的特征学习算法,关注局部细节的同时又关注全局信息。同时,视角变换、相机抖动也是时序边界定位不准的重要因素,为此,本文通过加入注意力机制,引导模型排除干扰信息,学习行为变化本身。本文在两个通用的行为定位数据库上验证了该模型的有效性。
其他文献
近期有一场关于孔子学院引起的风波十分抢眼,其起因是美国国务院不顾美国人民学习汉语的热情,突然单方面喊停孔子学院,要求全美81所学院必须认证,部分教师限期离境。此举在遭
用中长期规划指导经济社会发展,是党治国理政的重要方式。坚持党的全面领导,坚持和完善党领导经济社会发展的体制机制,充分发挥党在经济社会发展中的领导核心作用,是我国经济
十六大报告在谈到效率与公平关系时指出:初次分配注重效率,发挥生产的作用,鼓励一部分人通过诚实劳动、合法经营先富起来.再分配注重公平,加强政府对收入分配的调节职能,调节
目的幽门螺旋杆菌(Helicobacter pylori,H.pylori)感染是常见的慢性感染之一,是上消化道最常见的传染性致病菌,参与慢性胃炎、胃十二指肠溃疡、胃癌发病机制。世界上半数以上
2012年因为玛雅人的预言增添了一抹神秘的色彩。12月21日是玛雅长历法中第五太阳纪(周期为5126太阳年)的结束日。届时,太阳会非常接近银道和黄道的交汇点——银河中心,那刻的天象