论文部分内容阅读
在计算机视觉的模式识别中,目标检测是一个非常具有挑战性并且极具现实意义的的研究方向。多人姿态估计作为计算机视觉领域的一个重要组成部分,也影响着很多其它研究方向,包括但不限于人机交互、体感技术等。随着当下全球化的趋势愈加明显,安全问题也日益严峻,相比较于其它用于伪装身份的方法,步态由于其不可伪装性、远距离性等特点成为了当下各国安全的研究重点。近年来,随着计算机软硬件的大力发展和数据量的爆炸式增长,深度学习在计算机视觉领域表现十分优异,基于深度学习的多人姿态估计和步态识别方法也在各个领域发挥出重要的作用。论文首先介绍了多人姿态估计和步态识别技术的研究背景和意义,详细阐述了国内外的研究现状,包括主流的步态识别算法,并对当前技术存在的问题进行了分析;随着卷积神经网络和深度学习在计算机领域的大放光彩,论文仔细介绍了深度学习的基本理论知识和重要概念。本文主要展开了以下两方面的工作和创新:(1)首先提出了基于YOLOv3(You Only Look Once v3)的多人姿态估计算法(YOLO Pose Estimator,YLPE),针对算法存在的参数量过大和计算冗余等问题,进一步提出了基于模型剪枝的多人姿态估计算法(YOLOv3 Prune Pose Estimator,YLPPE)。该算法采用自顶向下框架,利用YOLOv3网络对多人图片进行人体目标检测,将检测所得人体包围框通过裁剪、补零等操作生成新的256?256大小的单人图片,最后将单人图片依次输入堆叠沙漏网络(Stacked Hourglass Network,SHN)进行人体关节点检测,并利用中心点回归法则将检测到的关节点回归至原始图片。该算法利用批量归一化(Batch Normalization,BN)层的缩放因子对YOLOv3网络进行循环迭代式通道剪枝,给BN层的每一个通道引入缩放因子,将缩放因子较小的通道视为冗余通道并移除,从而大幅降低网络的整体计算量。通过对剪枝后模型进行实验验证,YOLOv3剪枝模型参数量下降46%,但精度只下降了0.5%。YLPE算法在MPII数据集上达到了84.1m AP,而YLPPE算法为83.7m AP。同时,算法与Deeper Cut模型、RMPE模型等进行比较也获得了较为明显的精度领先。(2)提出了基于HP-GSI融合的步态识别算法。当前步态识别的主流方法是基于人体姿态(Human Posture,HP)和基于步态轮廓图(Gait Silhouette Image,GSI)两类,前者存在关节点定位不准确等问题,而后者受行人穿着和视角影响较大,针对上述问题论文提出了一种基于HPGSI融合的步态识别算法,其中算法所用数据集是由YLPPE算法对原始CASIA-B步态数据集进行图片尺寸裁剪和关节点信息提取所得。算法基于卷积神经网络实现的HP步态识别模块和GSI步态识别模块,其中,模块分别采用了集合池化(Set Pooling,SP)层结合完整步态周期图片特征,从而获得步态的时序特征。将视频分别输入这两个模块获得识别置信度和识别结果,再采用改进AND的决策层特征融合方法,得到最终检测结果。基于HP-GSI融合的行人步态识别算法在CASIA-B数据集上达到了75.8m AP,相比较于单独识别模块有了一定提升,证明了特征融合的有效性。