论文部分内容阅读
人体姿态估计是计算机视觉领域中的一个重要研究方向,用来实现从图像或视频中检测人体若干关键点位置,以帮助机器更好地解读人的行为。人体姿态估计是人机交互、人体动作识别、行人再识别等后续任务的基础,在自动驾驶、体感游戏、视频监控、体育训练、辅助医疗等领域都有着重要的应用价值。随着深度学习的不断发展,深度神经网络在计算机视觉中的图像分类、语义分割、目标检测等许多子领域均取得了突破性的进展,越来越多的研究者将深度神经网络应用于人体姿态估计。本文针对静态图片和视频中的多人姿态估计方法中存在的问题,对已有卷积神经网络算法模型进行研究和改进,分别提出基于双向加权融合的多人姿态估计方法和基于深度可分离卷积的快速多人姿态估计方法,主要工作包括:(1)在静态图片中的多人姿态估计方面,提出一种基于双向加权融合的多人姿态估计方法。本文针对已有级联金字塔网络(Cascaded Pyramid Network,CPN)模型对特征图利用不充分、估计性能不高的问题,提出一种基于双向加权融合的多人姿态估计方法。该方法相对于CPN模型的主要改进包括:一是使用双向加权特征金字塔网络改进Global Net,使特征金字塔中不同尺度的特征图按照不同比例进行融合,并且特征金字塔除了原有的从上到下的连接方式,又加入了从下到上的连接方式,从而使不同尺度的特征图被有效利用;二是把Dense Net中的网络连接方式加入到Refine Net,使特征图每经过一层卷积得到的新特征图与原输入特征图进行拼接而非相加,这样经过多个卷积层后特征图能够被多次重复利用,可以增加特征的多样性,使网络模型能够学习到更多的信息,从而使估计精度得到有效提高。(2)在视频中的多人姿态估计方面,提出一种基于深度可分离卷积结构的改进Open Pose模型。由于传统Open Pose模型依赖的卷积神经网络具有较高运算复杂度,因此模型的训练和部署需要配备有高性能GPU板卡的服务器才能完成,无法在使用嵌入式设备的边缘计算场合投入实际应用。针对此问题,本文用深度可分离卷积结构代替Open Pose模型中传统卷积结构,并对Open Pose模型中重复级联的阶段数进行修改,从而提出一种基于深度可分离卷积结构的改进Open Pose模型,在保持估计精度和原Open Pose模型相当的条件下极大降低Open Pose模型的运算量,从而使改进模型能够在具有较少运算资源的嵌入式终端上实现实时运行,支持边缘计算场景下实时人体姿态估计的应用。