论文部分内容阅读
人体行为识别是融合了计算机视觉、深度学习、模式识别等众多学科的研究成果,并在基于内容的视频搜索,辅助医疗,娱乐游戏,视频监控等领域具有广泛的应用价值。近年来,人体行为识别是计算机视觉中比较活跃的研究领域。人体可被视为一种关节系统,由关节点连接的刚性段(肢体)组成。人体行为由这些刚性段的运动组成,且由人体骨架节点在三维空间中的运动表示。随着深度传感器,如Kinect,以及骨架节点提取技术的发展,基于骨架节点的人体行为识别的研究逐渐兴起。基于骨架节点的人体行为识别研究主要包括四个方面:三维骨架节点特征表示,动态时序注册,多源特征联合学习,以及关键帧分析。现有关三维骨架节点特征表示方法在帧级特征提取过程中,往往忽略了骨架数据本身的噪声和其从属序列的类别及时序特性,使得提取的特征鲁棒性不高,并很难反映动作间细微且有意义的差异。而传统的基于动态时序规整的注册方法在处理含有周期性片段的行为序列时存在严重误配问题,并且忽略了类内与类间序列的差异,使得生成的隐式模板的辨识能力比较弱。另外,对于一些复杂或者极其相似的动作,仅仅依靠骨架节点数据,难以准确地识别人体行为。针对该问题,研究者提出了结合其他数据源,比如深度图序列、彩色图序列,提取多源特征进行行为识别的研究以提高识别准确率。而这些研究工作,往往是将多源特征线性组合,对最终的行为识别性能提升非常有限。对于视频关键帧提取,大多数研究是基于一些预先设计弱语义特征的准则,这使得它们难以适应不同的场景或任务。基于上述背景,本文首先简要介绍了人体行为识别算法的研究背景,意义和国内外相关研究现状,然后着重于基于骨架节点的人为行为识别研究,阐述了本文的基本思想和研究思路,深入研究三维骨架特征表示、动态时序注册、多源特征联合学习以及时序视觉注意选择四个方面的问题。本论文的主要贡献可归纳以下几个方面:(1)针对现有的方法在提取单帧特征时很少考虑其从属序列的类别与时序特性,骨架节点数据存在噪声等问题,提出一种类别与时序约束的自编码神经网络(DAE-CTC)。DAE-CTC在非监督学习过程中,引入类别约束项与时序约束项,并在解码中重建,获得更好鲁棒性的骨架特征。相较于其他方法,DAE-CTC在人体行为动作识别中获得了较高的准确率。(2)针对传统的时序注册算法存在严格的时序前传限制,并在处理周期性动作时可能完全失效的问题,提出一种基于局部时序约束的序列注册方法(LRWS)。计算动作隐式模板时,LRWS不仅考虑模板与类内的各行为类别序列间的相似性,同时强化其与类间序列间的差异。相对于主流的时序注册方法,本文提出的LRWS方法更加有利于人体行为识别问题。(3)针对现有算法辨识极其相似或存在重叠的动作不准确问题,提出了结合深度图的多源特征联合学习算法(DMAE)。DMAE采用DAE-CTC与卷积自编码分别提取骨架节点图与深度图的隐层特征,并通过一个两层神经网络对二者特征进行非线性建模,最后采用BP-NN联合优化整个网络。最终提取的骨架节点特征与深度图特征可以有效提升对于复杂和非常相似动作的辨识能力。另外,DMAE具有很强的重建能力,可以修复存在干扰噪声的三维骨架节点数据。(4)针对人体行为识别中存在时序干扰与计算冗余的问题,提出了一种基于递归自编码的时序视觉注意选择机制(TSAE)。利用递归神经网络LSTM (Long Short Term Memory)输出门阀的特性,通过添加低秩与稀疏约束,TSAE可以从动作序列中提取重要且稀疏的时序视觉注意点用于行为识别,自适应地减少运算量,并提高动作识别任务的准确性。同时在时间性能上,TSAE较其他对比方法具有显著的优势。本文针对基于骨架节点的人体行为识别中上述的几个重要问题,提出了其对应的有效的算法解决方案:三维骨架特征表示学习算法;动态时序注册算法;多源特征联合优化学习算法;以及时序视觉注意选择机制。同时在真实数据集上进行了大量的实验,验证了算法的有效性,为人体行为识别研究的进一步应用与发展扩展了思路。