论文部分内容阅读
在视频监控系统中,识别人们玩手机、摔倒或打架的动作是必要的。动作识别是人的三维运动信息,在真实的监控视频中快速准确的识别人的动作仍存在很多问题。为了解决这一问题,本文分别从人体骨架、图像卷积特征、视频时空卷积提取人体与物体特征,利用卷积神经网络识别人体动作。本文研究内容主要分为以下几个部分:基于人体骨架的动作识别算法。使用开源算法Open Pose从每个视频帧中检测人体骨架(关节位置),然后将骨架用作原始数据以提取特征并使用机器学习算法进行分类。还有其他动作识别方法,例如使用3D卷积神经网络或双流法去识别视频中的动作。但是训练大型神经网络既费时又困难,并且缺乏可解释性。相反人体骨架的特征更简洁,直观且易于区分不同的人体动作。因此选择了人体骨架作为基本特征来完成动作识别。基于人物关系检测的动作识别算法。要理解人的动作,不仅要识别单个行人实例,还要识别人与相关目标如何相互作用。人通常是这种交互的中心,检测人与物的交互是一个重要的问题。假设一个人的外表,他们的姿态、衣服、动作是定位他们所接触的对象的强有力的线索。利用这个线索,设计模型学习根据被检测到的人的外表来预测目标物体位置上的特定动作密度。模型还同时学习检测人和物体,通过融合这些预测,有效地在共同训练的端到端系统中推断出交互三元组,即人、物体和动作,并在COCO(V-COCO)和HICO-DET数据集中验证了该方法,识别图像中的人的动作。基于人体骨架图卷积的动作识别算法。通过使用人和物体骨架的图卷积网络来识别与物体相关的人类动作。在此框架中,通过有选择地对视频中的信息帧进行采样来构造可靠的人体姿态的骨架图,这些信息帧包括在姿态估计中获得的具有高置信度得分的人体关节。从采样帧生成的骨架图表示与空间和时间域中的对象位置有关的人体姿态,这些图用作图卷积网络的输入。在开放的数据集和本文自己的数据集上进行了实验,验证了框架的有效性。