基于递归神经网络的视频行为建模和识别方法研究

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 6次 | 上传用户:hh227
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,对视频中的行为建模和识别一直是计算机视觉研究中的热点和难点。由于递归神经网络,特别是长短时记忆网络,在机器翻译等领域的突出表现,利用递归神经网络对视频进行序列建模成为主流方法之一。但在较早的研究中,直接利用递归神经网络对视频帧的高层特征序列建模,并没有取得预想中的卓越效果。这主要是由于与一般的序列数据不同,视频数据具有自己的特点:一,视频数据本身具有维度高、语意结构复杂等诸多特点。具体到行为识别,视频中部分行为的判别存在歧义性,对上下文信息存在依赖性。二,视频数据序列中的单帧信息结构性弱、相邻帧信息冗余大。这两个方面的特点都极大得增加了利用递归神经网络进行建模的难度。针对视频数据的特点,结合递归神经网络的特性,我们对视频中的行为识别任务,分别设计了递归时空注意力网络和递归姿态注意力网络,来提高递归神经网络对视频行为的建模能力。并在公开数据集上对方法进行了测评,验证了方法的有效性。在本论文的第一部分,针对视频数据的特点一,我们提出了递归时空注意力网络结构。从而支持递归神经网络对每个时刻进行预测时,除了利用高层序列特征之外,可以从整个帧序列中,自适应得找到与当前特征具有强互补作用的中层特征。通过利用全局的多层的互补信息,从而增强了递归神经网络的建模能力。同时,为了利用图像表观信息和运动信息的互补性,我们还提出了注意力引导的表观流-运动流融合机制。我们在公开数据集UCF101,HMDB51和JHMDB上进行了方法验证。在前两个数据集上取得了优于其他基于递归神经网络的方法,在JHMDB数据集上取得了当前最好的结果。这部分工作,已经在IEEE Transactions on Image Processing(TIP)2017 发表。在本论文的第二部分,针对视频数据的特点二,结合姿态与行为的密切关联性,我们提出了递归姿态注意力网络结构。在该结构中,通过利用姿态信息对注意力热图进行监督,从而得到与姿态相关的姿态特征,以实现对单帧信息的“结构化”,有利于更加有效的模型训练。该结构在行为识别的同时,还能对视频中的姿态进行粗估计。我们在公开数据集Penn Action,Sub-JHMDB上进行了方法验证。在两个数据集上均取得了当前最好的效果。这部分工作,已经在IEEE国际计算机视觉大会(ICCV)2017发表,并在大会进行了口头(oral)报告。
其他文献
随着我国教育体制改革的深入,培养全面型高素质人才已经成为教育发展的重要目标。体育教学在完成体育基础知识、基本技术、基本技能等体育任务过程中,把情感教育有目的地注入到
混凝土作为一种建筑材料,具有取材容易、合理用材、耐久性较好、耐火性好及可模性好等诸多优点,而被广泛运用于建筑工程、桥梁工程、水利工程及交通工程。混凝土在施工过程中
数字图像相关法(DIC)由于具有非接触、全场、精度高、易操作等特点,已被广泛应用于宏微观尺度的变形测量。在微观尺度,DIC可以方便地与显微镜结合,实现变形测量;散斑作为变形
提示:三部委联合发布《关于加快推进再生资源产业发展的指导意见》,明确废纸等八大重点领域的治理目标。2017年1月25日,工业和信息化部、商务部、科技部联合发布了《关于加快