论文部分内容阅读
近年来,人体动作识别受到了研究者的广泛关注,已在安防、医疗、体育赛事分析等方面取得了普遍的使用。目前,基于RGB视频的人体动作识别被广泛的研究,但是RGB图像的获取易受光照、角度等影响,并且RGB图像信息难以对动作的空间变化进行表示。随着深度传感器的发展与人体姿态估计算法的研究,人体骨骼点的获取变得越来越容易,骨骼点表示了人体部位在空间中的三维位置信息,更有利于动作识别,所以基于骨骼点的动作识别成为当前动作识别领域的一个热点。基于骨骼点的人体动作识别算法流程为先提取动作序列中的时空特征,再设置分类器对提取的特征进行分类,从而得到动作识别结果。动作序列中每一帧的姿态具有空间相关性,不同帧间姿态具有时间相关性,常见的几何特征或时序特征很难同时提取到空间特征和时间特征。为了解决该问题,本文提出了一种基于骨骼点特征的提取空间特征的方法,并且为了加强分类器对时空特征的表达,提出了一种深度堆叠双向LSTM(Deep Stacked Bidirectional Long Short-Term Memory,DSB-LSTM)神经网络的人体动作识别方法。本文主要的研究内容如下:1)提出一种基于骨骼点特征提取方法,该方法首先根据人体骨骼几何结构,构造一组骨骼向量,然后通过这组骨骼向量提取骨骼向量模比值、骨骼向量角度特征,为验证提取骨骼点结构特征的有效性,本文设置以LSTM神经网络为模型分类器,在公开数据集上进行实验,并通过设置多种分类器对提取的骨骼点特征进行识别进行对比。2)动作序列具有时序性,而上述以单个LSTM神经网络为分类器不能对提取的骨骼点特征构建很好的时序性表达,为了加强对提取的特征识别效果,本文提出了一种DSB-LSTM网络。该方法在提取骨骼点结构特征的基础上,以堆叠多个深层双向LSTM为基础网络,设置Masking层加强模型对缺失数据的鲁棒性,设置时序dropout层减少模型过拟合,设置时序最大池化层加强对时序特征的表达。3)将上述提出的基于骨骼点特征提取方法和DSB-LSTM网络进行实验测试,在MSR-Action3D、Forence3D-Action和UTKinect-Action三种公开数据集上进行测试,并与已有在该数据集上的常见方法进行对比,测试集上的动作识别准确率具有一定的提升。实验结果表明,与现有算法相对,本文提出方法有效地提高了基于骨骼点的动作识别准确率。