论文部分内容阅读
人体姿态估计是计算机视觉领域的一个非常基础的研究方向,应用十分广泛。本文首先对人体姿态估计的研究现状及现存的研究难点进行了分析,然后选取了2D多人人体姿态估计问题作为本文的研究重点,主要研究内容如下:1.本文的研究重点为使用深度学习技术解决2D多人人体姿态估计问题,为了便于后续的研究,首先对深度学习人体姿态估计及神经网络的一些基本知识进行了介绍。2.为了高效地解决2D多人人体姿态估计问题,即获得一个准确率较高,同时预测速度也较快的模型。首先对2D多人人体姿态估计算法中的自顶向下算法进行了研究,选择了高分辨率人体姿态估计网络模型,对它的基本原理进行了研究,另外采用了注意力机制及知识蒸馏对之进行改进。在原始高分辨率网络模型中引入了注意力机制,具体实现采用non_local模块完成,可以加强像素与其它像素之间的关联,从而提升模型对局部信息的区分能力,提高模型的准确率。此外使用了知识蒸馏方法,包含教师网络和学生网络两部分,教师网络和学生网络的骨干模型均为采用注意力机制改进的高分辨率人体姿态估计网络,但教师网络的参数量较多,学生网络的参数量较少。学生网络通过知识蒸馏方法可以从教师网络获取有用信息,从而可以获得一个参数量较少,准确率较高的模型,提升了模型落地的可行性。但在进行模型速度的测试时,发现模型的实时性还可以进一步提升,另外随着图片中人数的增多,模型的预测耗时也会显著增加。3.为了在高效地解决2D多人人体姿态估计问题的同时,降低图片中人数对模型的预测耗时的影响,对2D多人人体姿态估计算法中的自底向上算法进行了研究。选择了复合场人体姿态估计网络模型,对它的基本原理进行了研究,另外采用带孔卷积及shuffleNet V2网络对之进行了改进。首先使用shuffleNet V2网络作为骨干网络,替换了原始复合场人体姿态估计模型中的ResNet骨干网络,可以提升模型的预测速度。另外在使用shuffleNet V2网络作为骨干网络的复合场人体姿态估计网络模型中,又引入了带孔卷积,以便增大网络的感受野,从而提高网络的准确率。实验表明该模型拥有不错的准确率与速度,而且模型的预测耗时对于图片中人数的敏感性得到了降低。另外对于分辨率较低的图片,该算法仍具有一定效果。