论文部分内容阅读
在如今的计算机视觉以及多媒体系统中,自动识别和解释人类行为受到研究人员的极大关注,这种研究已经应用到多媒体内容的检索与分类以及人机互动与监控系统中。相关的工作焦点集中在利用移动模式中的局部时空描述技术来描述人体的动作。通过在时空域中检测和描述特征算法来获得特征描述子,也就是时空特征。由于基于局部时空特征的表达对在尺度、方向和光照的改变下依然具有良好的稳定性特点,所以本文基于局部时空特征对视频人体动作识别开展研究。本文首先分析了传统的视频人体动作识别系统的基本原理,根据系统结构中的各个模块将系统分为特征提取以及模型匹配。在特征提取的过程中针对现有的特征提取算法的缺点,提出了一种新的特征提取方法;而在模型匹配过程中,针对传统的基于BoW模型在编码过程中有较多的重构错误的缺点,提出用稀疏编码代替矢量量化来进行编码,并结合三个正交平面(three orthogonal planes,TOP)映射的空间金字塔以及maxpooling模型来进行识别前的表达,通过将视频数据库分为比例为7:3的训练视频与测试视频的实验分配方式,验证了此系统的有效性。另外,本文还研究了基于实例到类(instance-to-class,I2C)距离的人体动作识别,提出直接通过朴素贝叶斯最近邻(NBNN)算法及其变种局部朴素贝叶斯最近邻(LNBNN)算法直接对测试视频进行分类识别,通过对视频数据库的实验仿真,对比传统的基于实例到实例(instance-to-instance,I2I)的SVM分类算法有比较明显的性能提高。