基于深度学习的视频人体动作识别

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zjwx2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算能力的大幅提高和大规模带标签的图像和视频数据集的提出,深度学习(Deep Learning)在计算机视觉(Computer Vision)领域的各个任务上(如图像分类、语义分割、目标检测等)取得了巨大的成功。在视频动作识别任务中,基于多路神经网络和3D卷积神经网络的深度学习架构取得了目前最好的性能。然而由于常用的网络结构不包含显式地学习视频中的上下文信息和视觉属性的模块,使得这些深度学习算法对视频动作识别有重要影响的区域或信息建模不足。另外动作在视频中的发生时间是不固定的,如何有效地将网络的注意力放到有动作的区域,是视频动作识别中一个需要解决的问题,而目前这方面的研究工作还比较少。针对上述这些问题,本文做出了如下的研究工作:首先我们提出了基于语义注意力模型的双路卷积神经网络,将视频中上下文信息的学习加入到网络中,提高了对视频中动作的识别能力。基于多路卷积神经网络(Multi-Stream ConvNet)的深度学习方法是视频动作识别任务中一类广泛使用的方法。这类方法首先分别学习多个域或多个模态的的特征,然后采用特征融合的方式,将多个域或多个模态的信息有效地聚合起来。然而另一方面,视频中包含许多对视频理解有帮助作用的上下文信息(Context)和语义信息,合理地利用这些信息能够对视频中的人体动作识别任务提供有效的帮助。我们在基础的多路神经网络的基础上,增加了由上下文信息构成的语义注意力模块,通过使用物体检测算法得到上下文信息候选区域,之后将这些候选区域输入到ROI-pooling层,加入到网络的训练过程中,之后提取对应候选区域的响应图,输入到全连接的网络层中,经过加权相加得到最后的识别概率。然后我们提出了基于视觉属性发掘的3D卷积网络,利用3D卷积网络来学习视频的表达,进而对动作进行识别,解决了现有网络在空间模式和时间模式都很相似的视频上的误分类问题。3D卷积网络作为一种学习时间和空间上的信息的网络结构,广泛地应用在视频理解和分析任务中。虽然3D网络结构在视频动作识别任务中取得了优异的性能,但是由于缺乏对视频中的视觉属性的显式的学习,因此对于某些空间整体模式和时间运动模式上很相似的视频类别,3D卷积网络无法区分出来。为了有效地解决上面提到的这个问题,我们提出了运用视觉属性(Visual Attributes)的发掘来提升3D卷积的算法,利用成熟的物体检测算法和自然语言处理领域中的算法来从视频中发现有用的视觉属性,然后将视觉属性和视频关联起来,对视觉属性进行网络进行识别。最后我们提出了泛化的注意力池化模型,用包含注意力模型模块的卷积网络来进行动作识别,提高了网络的表达力,使得适用场景更广泛。在视频中,动作是一个持续一段时间,且出现时间不确定的某种模式或运动,而大部分视频片段是没有动作的。因此,应用注意力模型可以发现视频中的有动作的片段和动作发生的空间位置。基于此,我们提出了泛化的注意力池化模型GAP(Generalized Attentional Pooling),利用低阶非线性操作近似二阶池化操作,同时作为一种注意力模型,我们的方法在结合了数据集中给定的人体关键点数据后,动作的识别性能得到进一步提升。实验证明了我们的方法和人体关键点的识别具有很好的互补性。通过上述三个内容,本工作在常见的基于深度学习的视频分析框架下,对视频中的语义信息的加权,视觉属性的挖掘和视频中的注意力模型进行了研究。通过这三个实验,本论文验证了显式地对视频中关键内容进行学习的可行性和有效性。
其他文献
无源光网络(PON)是在当前形势下,应对日益增长的高带宽远距离数据通信需求的有效解决方案。以太网无源光网络(EPON)因其与现有以太网络设备兼容性好,技术实现容易,总体成本较
互联网的发展推动了数字娱乐产业的飞速发展,卡通作为其重要的一部分,其独特的表达方式已深入人心。目前计算机生成卡通画主流的方法是利用相关算法自动生成卡通画,对于某些
可见光通信作为无线射频通信的一种重要补充技术,有着很多独特的优势。然而可见光通信是一个动态范围受限的非线性系统,同时LED和信道的记忆效应与LED静态非线性叠加会进一步
随着全世界人口老龄化和慢性疾病的不断增加,现有的医疗资源已无法满足人们需求。为了解决医疗资源短缺问题,一种新型的网络结构—无线体域网(Wireless Body Area Network, W
近年来,无线Adhoc网络凭借其便捷性、及时性和移动性等特点得到了广泛关注与应用。而这些特点也为Adhoc网络协议与算法的设计带来了难度。为了保证服务质量(QualityofService,Q
电力通信网在电力系统中的作用十分重要,尤其是在电网安全稳定控制系统和调度自动化系统、电力市场运营商业化、实现电力系统现代化管理和在非电产业经营多样化中均起到了基础、保障和前提的作用。为了保证电力通信运行的稳定性,要求在故障发生时需要在尽可能短的时间里对所出现故障的具体问题做出正确的判断并在第一时间排除故障,以便恢复正常传输业务。随着网络复杂程度越来越高,原来的人工判断的方式效率非常低。由于电力通信
正如互联网的产生改变人与人的信息共享模式一样,无线传感器网络的飞速发展也正在改变着人类与客观物理世界的交互模式。无线传感器网络是由大量分布于监测区域的传感器节点
随着通讯技术的迅猛发展,手机、平板电脑等移动数字终端与人们的日常生活联系越来越密切,成为了人们获取外界信息的一个主要途径。Android系统是一个以Linux为基础的开源操作系
工件识别是机器视觉领域重要的研究课题,该技术旨在利用计算机视觉技术实现工业生产线上目标工件的智能检测与分类识别,是工业机器人实现工件自动化分拣及装配的保证。随着机
混沌激光保密通信是一种基于物理层的硬件加密技术,与传统的RSA公众密钥加密体制相比,具有安全、高速、实时等优点。近年来,虽然人们在混沌激光保密通信的理论和实验研究方面