论文部分内容阅读
随着人工智能技术的快速发展,计算机视觉领域中的人体动作识别研究取得了诸多成果,并广泛地应用于智能监控、生活娱乐、人机交互、医疗康复等多种现实场景。总体上,人体动作识别研究可基于 RGB 视频序列和深度视频序列两种主要数据源开展,并通过计算机建模描述人体动作序列的特征,以此实现人体动作识别模型构建。而相对于 RGB 视频序列,深度视频序列中蕴含了更多复杂且难于提取的潜在人体动作信息,因此,如何提取深度视频序列中的人体动作特征,提出有效的人体动作识别方法是该领域研究中亟需解决的关键问题。
论文基于深度视频序列中存在的复杂时空特性,在既往人体动作识别研究成果的基础上,针对亟需解决的关键性问题,展开对深度视频序列中的人体动作特征提取方法和分类识别模型构建的深入研究。在此基础上,本文的主要研究内容和创新点概括总结如下:
第一,针对人体动作特征提取方法中存在时空信息数据复杂和三维视觉信息缺失的问题,提出了基于深度视频序列的深度动作历史图像、深度动作累加图像和深度动作累减图像三种深度动作序列图像模型,并将这三种动作模型分别向坐标轴的xoy平面、yoz平面和xoz平面投影,对投影图像分别提取它们的 Hu 矩特征,最终实现了一个完整的多视角深度时序人体动作表征。这种特征提取方法发掘了深度视频序列所具有的深度空间和时间序列数据优势,既简化了复杂的人体动作时空信息数据表征,又挖掘了深度图像的三维立体数据优势。
第二,针对连续视频序列人体动作难以分割的问题,提出了一种通过关键帧选择的鞅框架实时地对视频序列进行人体动作分割的方法。根据视频序列本身具有的典型时序依赖性,该方法能够基于既有帧检测与分析实现不依赖后续帧直接分割出一个动作。为了实现视频序列中关键帧的选择,引入一种鞅框架模型来实现关键帧的选择,进而通过一种极限学习机模型算法完成视频人体动作的分割与分类识别。高效的关键帧提取与精准的人体动作分割是构建快速、准确、轻量化人体动作识别模型的关键。
第三,针对如何提高深度视频序列的人体动作识别率问题,提出了一种多分类器投票策略的集成学习识别模型方法。基于机器学习理论中的集成学习方法,通过多个个体分类器结合模型的构建,实现深度视频序列的人体动作多分类器集成识别的功能。整个集成学习模型融合多个个体分类器,在本文提出的多视角深度人体动作时序特征上实现了基于 Hard-投票策略的分类验证。在此基础上,提出了一个改进遗传算法学习进化感知的混合投票策略模型方法,这种方法降低了传统基于Hard-投票策略的集成学习模型在决策级上的拟合误差。
第四,针对如何基于深度视频序列解决多视角人体动作识别的问题,提出了一种多视角深度人体动作表征层次化模型方法。该方法基于多视角分层融合的框架对深度视频序列的时空依赖性建模,从而实现人体动作的特征提取与分类。深度视频序列信息是一种典型的时间序列数据,考虑到循环神经网络模型能够很好的建模时间序列中上下文信息的序列依赖关系,本文考虑到深度图像所具有的三维立体视觉空间优势,将深度人体动作数据投影到三个坐标平面,再将提取的人体动作特征输入到模型中,通过使用长短时间记忆神经元的双向循环神经网络进行多视角分层融合训练,实现人体动作时序表征的精准建模与识别。
第五,针对深度时序数据采集应用研究问题,通过对深度视频采集的传感器设备研究,深入研究深度视频数据的特点,论文对基于双目立体视觉和基于Kinect这两种当前先进的深度视频采集技术进行深入研究。在此基础上,分别基于双目立体视觉和Kinect(包括彩色图像、深度图像和骨架数据)采集了4个人体行为动作数据库:双目立体视觉数据库、基本动作数据库、日常生活数据库和考试行为数据库。高效准确的数据获取和内容丰富的自建数据库为拓展应用研究奠定了重要的基础。
本文以基于深度视频序列的人体动作识别为主要研究内容,分别对深度视频序列的人体动作特征提取、具有典型时序依赖性的深度视频序列分割、深度视频序列中人体动作的上下文信息的序列依赖关系建模、人体动作的空间特性挖掘等问题,提出了高效、准确的人体动作特征提取、动作分割和识别方法,为相关领域的研究提供了新的思路和方法。在人体动作识别数据库上的量化实验结果表明了所提出方法的有效性,同时,自建数据库的采集为有效实现拓展应用研究奠定了重要的基础。
论文基于深度视频序列中存在的复杂时空特性,在既往人体动作识别研究成果的基础上,针对亟需解决的关键性问题,展开对深度视频序列中的人体动作特征提取方法和分类识别模型构建的深入研究。在此基础上,本文的主要研究内容和创新点概括总结如下:
第一,针对人体动作特征提取方法中存在时空信息数据复杂和三维视觉信息缺失的问题,提出了基于深度视频序列的深度动作历史图像、深度动作累加图像和深度动作累减图像三种深度动作序列图像模型,并将这三种动作模型分别向坐标轴的xoy平面、yoz平面和xoz平面投影,对投影图像分别提取它们的 Hu 矩特征,最终实现了一个完整的多视角深度时序人体动作表征。这种特征提取方法发掘了深度视频序列所具有的深度空间和时间序列数据优势,既简化了复杂的人体动作时空信息数据表征,又挖掘了深度图像的三维立体数据优势。
第二,针对连续视频序列人体动作难以分割的问题,提出了一种通过关键帧选择的鞅框架实时地对视频序列进行人体动作分割的方法。根据视频序列本身具有的典型时序依赖性,该方法能够基于既有帧检测与分析实现不依赖后续帧直接分割出一个动作。为了实现视频序列中关键帧的选择,引入一种鞅框架模型来实现关键帧的选择,进而通过一种极限学习机模型算法完成视频人体动作的分割与分类识别。高效的关键帧提取与精准的人体动作分割是构建快速、准确、轻量化人体动作识别模型的关键。
第三,针对如何提高深度视频序列的人体动作识别率问题,提出了一种多分类器投票策略的集成学习识别模型方法。基于机器学习理论中的集成学习方法,通过多个个体分类器结合模型的构建,实现深度视频序列的人体动作多分类器集成识别的功能。整个集成学习模型融合多个个体分类器,在本文提出的多视角深度人体动作时序特征上实现了基于 Hard-投票策略的分类验证。在此基础上,提出了一个改进遗传算法学习进化感知的混合投票策略模型方法,这种方法降低了传统基于Hard-投票策略的集成学习模型在决策级上的拟合误差。
第四,针对如何基于深度视频序列解决多视角人体动作识别的问题,提出了一种多视角深度人体动作表征层次化模型方法。该方法基于多视角分层融合的框架对深度视频序列的时空依赖性建模,从而实现人体动作的特征提取与分类。深度视频序列信息是一种典型的时间序列数据,考虑到循环神经网络模型能够很好的建模时间序列中上下文信息的序列依赖关系,本文考虑到深度图像所具有的三维立体视觉空间优势,将深度人体动作数据投影到三个坐标平面,再将提取的人体动作特征输入到模型中,通过使用长短时间记忆神经元的双向循环神经网络进行多视角分层融合训练,实现人体动作时序表征的精准建模与识别。
第五,针对深度时序数据采集应用研究问题,通过对深度视频采集的传感器设备研究,深入研究深度视频数据的特点,论文对基于双目立体视觉和基于Kinect这两种当前先进的深度视频采集技术进行深入研究。在此基础上,分别基于双目立体视觉和Kinect(包括彩色图像、深度图像和骨架数据)采集了4个人体行为动作数据库:双目立体视觉数据库、基本动作数据库、日常生活数据库和考试行为数据库。高效准确的数据获取和内容丰富的自建数据库为拓展应用研究奠定了重要的基础。
本文以基于深度视频序列的人体动作识别为主要研究内容,分别对深度视频序列的人体动作特征提取、具有典型时序依赖性的深度视频序列分割、深度视频序列中人体动作的上下文信息的序列依赖关系建模、人体动作的空间特性挖掘等问题,提出了高效、准确的人体动作特征提取、动作分割和识别方法,为相关领域的研究提供了新的思路和方法。在人体动作识别数据库上的量化实验结果表明了所提出方法的有效性,同时,自建数据库的采集为有效实现拓展应用研究奠定了重要的基础。