面向深度时序特征的人体动作识别方法研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:hansenhuang1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的快速发展,计算机视觉领域中的人体动作识别研究取得了诸多成果,并广泛地应用于智能监控、生活娱乐、人机交互、医疗康复等多种现实场景。总体上,人体动作识别研究可基于 RGB 视频序列和深度视频序列两种主要数据源开展,并通过计算机建模描述人体动作序列的特征,以此实现人体动作识别模型构建。而相对于 RGB 视频序列,深度视频序列中蕴含了更多复杂且难于提取的潜在人体动作信息,因此,如何提取深度视频序列中的人体动作特征,提出有效的人体动作识别方法是该领域研究中亟需解决的关键问题。
  论文基于深度视频序列中存在的复杂时空特性,在既往人体动作识别研究成果的基础上,针对亟需解决的关键性问题,展开对深度视频序列中的人体动作特征提取方法和分类识别模型构建的深入研究。在此基础上,本文的主要研究内容和创新点概括总结如下:
  第一,针对人体动作特征提取方法中存在时空信息数据复杂和三维视觉信息缺失的问题,提出了基于深度视频序列的深度动作历史图像、深度动作累加图像和深度动作累减图像三种深度动作序列图像模型,并将这三种动作模型分别向坐标轴的xoy平面、yoz平面和xoz平面投影,对投影图像分别提取它们的 Hu 矩特征,最终实现了一个完整的多视角深度时序人体动作表征。这种特征提取方法发掘了深度视频序列所具有的深度空间和时间序列数据优势,既简化了复杂的人体动作时空信息数据表征,又挖掘了深度图像的三维立体数据优势。
  第二,针对连续视频序列人体动作难以分割的问题,提出了一种通过关键帧选择的鞅框架实时地对视频序列进行人体动作分割的方法。根据视频序列本身具有的典型时序依赖性,该方法能够基于既有帧检测与分析实现不依赖后续帧直接分割出一个动作。为了实现视频序列中关键帧的选择,引入一种鞅框架模型来实现关键帧的选择,进而通过一种极限学习机模型算法完成视频人体动作的分割与分类识别。高效的关键帧提取与精准的人体动作分割是构建快速、准确、轻量化人体动作识别模型的关键。
  第三,针对如何提高深度视频序列的人体动作识别率问题,提出了一种多分类器投票策略的集成学习识别模型方法。基于机器学习理论中的集成学习方法,通过多个个体分类器结合模型的构建,实现深度视频序列的人体动作多分类器集成识别的功能。整个集成学习模型融合多个个体分类器,在本文提出的多视角深度人体动作时序特征上实现了基于 Hard-投票策略的分类验证。在此基础上,提出了一个改进遗传算法学习进化感知的混合投票策略模型方法,这种方法降低了传统基于Hard-投票策略的集成学习模型在决策级上的拟合误差。
  第四,针对如何基于深度视频序列解决多视角人体动作识别的问题,提出了一种多视角深度人体动作表征层次化模型方法。该方法基于多视角分层融合的框架对深度视频序列的时空依赖性建模,从而实现人体动作的特征提取与分类。深度视频序列信息是一种典型的时间序列数据,考虑到循环神经网络模型能够很好的建模时间序列中上下文信息的序列依赖关系,本文考虑到深度图像所具有的三维立体视觉空间优势,将深度人体动作数据投影到三个坐标平面,再将提取的人体动作特征输入到模型中,通过使用长短时间记忆神经元的双向循环神经网络进行多视角分层融合训练,实现人体动作时序表征的精准建模与识别。
  第五,针对深度时序数据采集应用研究问题,通过对深度视频采集的传感器设备研究,深入研究深度视频数据的特点,论文对基于双目立体视觉和基于Kinect这两种当前先进的深度视频采集技术进行深入研究。在此基础上,分别基于双目立体视觉和Kinect(包括彩色图像、深度图像和骨架数据)采集了4个人体行为动作数据库:双目立体视觉数据库、基本动作数据库、日常生活数据库和考试行为数据库。高效准确的数据获取和内容丰富的自建数据库为拓展应用研究奠定了重要的基础。
  本文以基于深度视频序列的人体动作识别为主要研究内容,分别对深度视频序列的人体动作特征提取、具有典型时序依赖性的深度视频序列分割、深度视频序列中人体动作的上下文信息的序列依赖关系建模、人体动作的空间特性挖掘等问题,提出了高效、准确的人体动作特征提取、动作分割和识别方法,为相关领域的研究提供了新的思路和方法。在人体动作识别数据库上的量化实验结果表明了所提出方法的有效性,同时,自建数据库的采集为有效实现拓展应用研究奠定了重要的基础。
其他文献
在选矿过程中,磨矿过程作为破碎过程的下一道工序,在矿物破碎的基础之上进一步对矿物进行研磨粉碎,将大颗粒矿物原料粉碎到适宜粒度,使有用矿物与脉石单体解离或使不同种的有用矿物相互解离,为选矿过程的后续工序提供原料。由于磨矿过程高能耗的特点和位于选矿过程中的重要位置,磨矿过程的产品粒度与循环负荷对选矿生产全流程的精矿品位和产量有重要影响,更与选矿厂的综合经济技术指标密切相关。因此,磨矿过程的运行优化与控
学位
电熔镁炉是将菱镁矿通过复杂的物理化学过程转化为电熔镁砂的高耗能设备。电熔镁砂是制造工业和航空领域中高级耐火材料的原料。电熔镁群炉需量指当前时刻和当前时刻之前一定时间内群炉功率的平均值,用于度量电熔镁群炉的用电量。为了节约电能,群炉需量不得超过电力部门规定的需量峰值。电熔镁砂生产企业为了不超过需量峰值设置限幅值。当群炉需量超过限幅值时会切断某台炉的供电。切断供电会破坏炉内温度场吸热与放热之间的平衡,
学位
由于飞机在起飞、巡航、进近、着陆过程中都会不可避免地遭受大气扰动的影响,从而轻则导致人员颠簸,重则导致结构颤振或者飞机失控。阵风缓和作为主动控制技术的一个大类,在工程应用和科研探索方面受到飞行控制领域专家和学者越来越多的重视。通常,大型民机和现代高性能战斗机都具有多操纵面布局的特点,传统的三个舵面控三轴力矩的情况在多操纵面飞机上无法实现,这就需要考虑如何解决过驱动系统的控制问题。在充分考虑这些因素
服务机器人在商场、图书馆、医院、工厂和办公环境等不同工作场所具有很高的应用潜力,可协助进行多项工作。服务机器人通过对移动目标的定位和跟踪来对其进行帮助和引导,然而对像人类这样的运动目标进行定位是一项复杂而具有挑战性的任务,因为目标的移动速度可能非常快且不可预测。近年来的研究表明,RFID(Radio Frequency IDentification)技术在移动物体的定位方面取得了迅速的发展。RFI
新能源汽车不管是在环保领域还是作为新兴产业,都受到了国家的高度重视。电池管理系统是保障汽车安全行驶的一个环节,也是发展新能源汽车的关键之一。而电池SOC(State OfCharge)的估算是电池管理系统的一个部分,在复杂工况下,电流、电压等电池的外特性采集极易受到干扰,产生噪声,加上动力电池的初始电量难以确认,使得单一的SOC估算方法会产生估算误差,并且性能欠佳。因此,本文以锂离子电池作为研究对
切换系统是一类刻画多模态切换的混杂动态系统,被广泛地应用于实际工程系统。在网络通信背景下,含有采样数据、量化信号以及随机噪声等特性的复杂系统是当前的研究热点之一。本文基于采样和量化控制策略,利用增加幂积分法、动态增益技术、齐次系统理论、Lyapunov稳定性理论以及随机系统理论,解决几类带离散反馈环节的切换非线性系统的输出反馈镇定以及实际输出跟踪问题。主要研究内容包括如下几方面:  1. 研究了一
高速列车凭借舒适、高效、便捷等特点,已成为我国城际间主流交通工具。牵引系统作为高速列车重要组成部分,其可靠性对于列车安全运行至关重要。随着列车在轨运行时间增长,牵引系统不同元器件老化将引发微小故障,继而影响列车的可靠性与安全性。如果微小故障在演变为失效之前能被成功检测与诊断,并采取必要维修措施,则可极大提高高速列车安全性。由于高速列车牵引系统是一类非线性且非高斯系统,且运行环境存在无法避免的时变干
学位
无人机(Unmanned Aerial Vehicles, UAVs)凭借其在偏远地区或危险环境中出色的作战能力,被广泛应用于民用和军用领域。然而,UAVs的结构比较复杂并且飞行环境往往是多变的,UAVs飞行控制(Flight Control, FC)的稳定性容易受到系统不确定和外部干扰的影响而导致性能下降。此外,对于实际飞行的UAVs,UAVs的舵面偏转角度被限定在有限的范围内,如果设计的UAV
学位
面临高度对抗性、高度不确定性、高度动态性的任务环境,无人机的任务需求已逐步从单平台向多平台方向发展。近年来,多无人机编队技术发展迅速,出现了以百千为单位的小型旋翼机协同演示任务,而以传统固定翼无人机为主体的多机协同尚待发展。作为飞机中最主流的构型之一,固定翼无人机可以达到更大的飞行速度和载重量,但是相应地损失了垂直起降、悬停等功能,飞行试验也需要较大的场地。因此,本课题着眼于固定翼无人机,结合飞机
学位
冰雹和短时强降水天气是因为强对流天气系统所造成的剧烈天气现象,它们会给农业、建筑、通讯、电力、交通以及人民生命财产带来巨大损失。关于强对流天气雷达回波及雹云的预报技术,很多学者都进行了相关的研究。  由于基于天气雷达信息仅是实况的反映,缺乏较长的预报提前量,因此,以发生冰雹和短时强降水天气的物理场为背景,通过机器学习的方法构建预报模型,从而解决预报提前量以及预报准确率问题。  本文基于天津气象站点
学位