论文部分内容阅读
人体姿态估计,指根据人体解剖结构定义的人体骨架特征,通过在图像上定位人体关键点像素坐标来构建人的整体姿态,是一个关键点位置的定位问题。基于图像的人体姿态估计是一个重要的底层视觉问题,该方向的研究对人机交互,行为识别和行人重识别等高层视觉任务有非常重大的意义。为此,本文研究基于深度学习的人体姿态估计算法。
由于身体关键点是相互连接的,对身体关键点之间的结构关系进行建模可以提高定位性能。基于原始图卷积网络,本文提出了一种新颖的模型,称为姿态图卷积网络,以利用这些重要的关系进行姿态估计。具体来说,我们的模型根据人体骨架在人体关键点之间建立有向图。图中每个节点(关键点)都由一个3-D张量表示,每个张量由多个特征图组成,这些特征图初始是由骨干网络产生的。此外,本文提出了注意力机制以关注关键点之间关键的边(结构信息)。具体地,本文为姿态图卷积网络提出了两个模块,即局部姿态图卷积网络模块和非局部姿态图卷积网络模块。前者利用空间注意力来捕捉相邻关键点局部区域之间的相关性,以精确调整关键点的位置。后者通过非局部操作来建模远距离关系,以预测困难的关键点。实验表明,本文提出的姿态图卷积网络优于当前算法的性能。
现有方法受困于困难场景下的样本数量不足的问题,这使得他们在困难场景下性能不佳。为了增加困难场景下样本的数量,以前的方法通过裁剪和粘贴具有弱语义的图像块来对进行数据增强,这种方法得到的图片表观不真实且多样性有限。并且,以前方法是一种静态的数据增强方法,无法考虑训练样本之间的差异和姿态估计网络的动态训练状态。为此,本文提出了一种基于空间变换网络的对抗语义数据增强。该方法首先利用人体分割算法,从训练集中提取身体部件,并根据人体结构将提取出来的身体部件组合成各种语义粒度的身体部件。然后利用一个空间变换网络将采样到的身体部件动态地放置到输入图像上,来产生困难的样本。姿态估计网络将从生成的样本上学习如何在困难场景下准确定位关键点。我们将空间变换网络作为生成器,将姿态估计网络作为判别器,以对抗的方式进行训练。实验表明,本文提出的基于对抗语义数据增强的人体姿态估计算法达到了最先进的水平。
当前人体姿态估计方法大多采用多阶段的网络结构,这为网络提供了一种反复的推理机制。针对这种多阶段的结构,本文提出一种新的镜像姿态蒸馏模型学习策略来进一步提高多阶段网络的性能。具体而言,镜像姿态蒸馏策略首先训练一个镜像网络以学习姿态结构信息,这种姿态结构信息隐含在镜像模型多个阶段的输出中。随后一个多阶段热度图融合模块被用来提取姿态结构信息,并将该信息迁移到具有相同网络结构的本体模型中,以此来提高本体模型的性能。实验表明,本文提出的镜像姿态蒸馏策略提升了多阶段网络的性能。
本文从网络结构与数据增强方面展开研究,提升了人体姿态估计性能,对人体姿态估计及其相关领域有着重要的推动意义。
由于身体关键点是相互连接的,对身体关键点之间的结构关系进行建模可以提高定位性能。基于原始图卷积网络,本文提出了一种新颖的模型,称为姿态图卷积网络,以利用这些重要的关系进行姿态估计。具体来说,我们的模型根据人体骨架在人体关键点之间建立有向图。图中每个节点(关键点)都由一个3-D张量表示,每个张量由多个特征图组成,这些特征图初始是由骨干网络产生的。此外,本文提出了注意力机制以关注关键点之间关键的边(结构信息)。具体地,本文为姿态图卷积网络提出了两个模块,即局部姿态图卷积网络模块和非局部姿态图卷积网络模块。前者利用空间注意力来捕捉相邻关键点局部区域之间的相关性,以精确调整关键点的位置。后者通过非局部操作来建模远距离关系,以预测困难的关键点。实验表明,本文提出的姿态图卷积网络优于当前算法的性能。
现有方法受困于困难场景下的样本数量不足的问题,这使得他们在困难场景下性能不佳。为了增加困难场景下样本的数量,以前的方法通过裁剪和粘贴具有弱语义的图像块来对进行数据增强,这种方法得到的图片表观不真实且多样性有限。并且,以前方法是一种静态的数据增强方法,无法考虑训练样本之间的差异和姿态估计网络的动态训练状态。为此,本文提出了一种基于空间变换网络的对抗语义数据增强。该方法首先利用人体分割算法,从训练集中提取身体部件,并根据人体结构将提取出来的身体部件组合成各种语义粒度的身体部件。然后利用一个空间变换网络将采样到的身体部件动态地放置到输入图像上,来产生困难的样本。姿态估计网络将从生成的样本上学习如何在困难场景下准确定位关键点。我们将空间变换网络作为生成器,将姿态估计网络作为判别器,以对抗的方式进行训练。实验表明,本文提出的基于对抗语义数据增强的人体姿态估计算法达到了最先进的水平。
当前人体姿态估计方法大多采用多阶段的网络结构,这为网络提供了一种反复的推理机制。针对这种多阶段的结构,本文提出一种新的镜像姿态蒸馏模型学习策略来进一步提高多阶段网络的性能。具体而言,镜像姿态蒸馏策略首先训练一个镜像网络以学习姿态结构信息,这种姿态结构信息隐含在镜像模型多个阶段的输出中。随后一个多阶段热度图融合模块被用来提取姿态结构信息,并将该信息迁移到具有相同网络结构的本体模型中,以此来提高本体模型的性能。实验表明,本文提出的镜像姿态蒸馏策略提升了多阶段网络的性能。
本文从网络结构与数据增强方面展开研究,提升了人体姿态估计性能,对人体姿态估计及其相关领域有着重要的推动意义。