论文部分内容阅读
行为识别是计算机视觉、机器学习、人工智能等领域的热点与重点研究方向。该方向对图像、视频数据中的人体行为进行分析识别,其研究成果在安全监控、病残监护、多媒体内容理解、人机交互、虚拟现实等方面得到了切实应用。然而,现有的行为识别技术在实际应用中存在很多局限性。为满足实际需求,本文针对如下四个关于视频中人体行为识别问题展开研究。1)在特定场景下,某些行为的样本极难收集,如何利用极少的样本快速的对特定行为进行识别;2)在行人可检测的较复杂场景中,如何有效的对特定行为进行识别;3)在行人可检测的较复杂场景中,如何快速有效的对多类行为进行识别;4)在行人不可有效检测的复杂场景中,如何有效的对多类行为进行识别。本文从实际应用问题出发,以模式识别、机器学习等理论为基础,开展了一系列创新性的研究,并提出了如上四个问题的解决方法。本文主要的研究工作和贡献如下:1)提出了一种基于霍夫投票的全局行为表征方法,即位移直方图序列表示法。该方法首先对行为视频中的运动区域进行粗略估计;然后根据运动区域中连续多帧图像中的兴趣点的匹配情况,使用二维的位移直方图表征这些连续图像中人体的运动信息;最后根据位移直方图序列,采用矩阵余弦相似度的度量方式对行为进行识别;对于识别的行为,匹配的兴趣点精确地定位了行为发生的时空位置。实验结果表明,在静态或背景较均匀场景下,该方法能够有效的对特定行为进行检测识别。此外,该方法采用从粗到细的行为定位方式,有效的提高了行为的表征速度。该方法解决了在样本极少情况下,特定行为的识别与检测问题。2)提出了一种在新视角下对人体行为进行时空特征学习的方法。该方法首先对行为人体进行检测与跟踪,并使用多限制玻尔兹曼机(RBM)对人体各部位的时序形状特征进行时空特征编码;然后将人体各部位的时空特征编码通过RBM神经网络整合为行为视频的全局时空特征表征;最后通过训练的支持向量机分类器对行为进行识别。大量实验验证了该方法的有效性。这种从人体各部位的形状特征序列中提取时空特征的方法,开辟了行为特征提取的新视角。该方法解决了较复杂场景下,特定行为的识别问题。3)提出了一种基于倒排索引的快速的多类行为识别算法。该方法首先对检测与跟踪到的行为人体的兴趣区域,提取形状运动特征,并通过层级聚类的方法利用这些特征构建行为状态二叉树;基于状态二叉树,快速的将行为表征为行为状态序列;然后,通过构建的行为状态倒排索引表与行为状态转换倒排索引表,计算行为状态序列对应于各行为类别的两个分值向量;最后根据加权的分值向量来识别行为。实验表明,该方法能够快速的对多类行为进行识别。行为状态二叉树的应用,加快了对行为视频的行为状态序列表征;倒排索引表的使用,明显提高了多类行为的识别速度。该方法解决了较复杂场景下,多类行为的快速识别问题。4)提出了一种基于独立子空间分析网络,利用从视频中学习的空间特征对视频行为进行时空特征编码的方法。首先,该方法利用引入规则化约束的独立子空间分析网络,学习了一组时间缓慢不变的空间特征;对从采样的视频块中提取的此类特征在时间域与空间域上进行池化处理,得到了能够有效的识别行为的局部时空特征。然后,基于特征袋(BOF)模型使用提取的局部时空特征对行为进行表征。最后采用非线性的支持向量机分类器识别多类行为。实验结果表明,时间缓慢不变规则化约束与去噪准则的引入,使学习的空间特征及提取的局部时空特征对混乱背景,遮挡等因素具有较强的鲁棒性。该方法解决了复杂场景下,多类行为的识别问题。