论文部分内容阅读
随着人机交互的飞速发展及其应用领域的不断扩大,可穿戴式智能设备和增强现实(AR)和虚拟现实(VR)技术的迅猛发展,手势交互已经成为当前计算机视觉以及人工智能领域的研究热点。然而,目前手部关键点检测领域存在两个方面的问题:一个问题是当前第一视角手势RGB手势数据集较为稀缺,不利于数据驱动方法(比如深度学习)的研究,另一个问题是传统的手部关键点检测方法容易受手势数据的质量,背景颜色,光照条件等因素的干扰,算法性能已经遇到了瓶颈期,且由于模型以及计算量过大等因素,当前的手部关键点检测方法尚无法广泛应用于移动端。因此,如何实时获取第一视角和第三视角手部关键点的位置以便用于后续的交互成为急需解决的问题。针对上述问题,本文对基于深度学习的手部关键点检测及其移动端应用进行了深入的研究和探索,包括:(1)第一视角RGB图像指尖检测;(2)第三视角深度图像手部关键点估计;(3)深度学习模型的压缩以及移动端的部署。主要研究内容和贡献如下:针对第一视角RGB手部关键点检测数据较少的特点,我们采集标注了一个名为EgoGesture的第一视角RGB多手势数据集并提出一个名为YOLSE(You Only Look what You Should See)的全卷积神经网络,用于从第一视角多种手势单帧RGB图片中检测指尖并识别指尖。与目前具有代表性的方法相比,我们的第一视角指尖检测算法不仅达到了可靠性和实时性的要求,而且减弱了指尖检测对手部检测器的依赖性。对于第三视角深度图像手部关键点估计,我们创造性地将三维手部关键点估计任务分解为二维关键点检测任务以及深度值回归任务,提出了基于注意力机制和多任务学习的三维手部关键点估计网络。实验证明,我们的三维手部关键点估计算法可以准确地获取二维的手部关键点位置并利用回归得到的深度值映射得到手的三维坐标。最后,我们提出了移动端指尖检测模型MobileYOLSE并设计实现了IOS端的实时手指尖检测系统。MobileYOLSE利用逆残差模块极大地减少了模型的参数量,通过L1范数剪枝,合并BN层和卷积层的参数等操作,我们在保证甚至提升了模型精度的前提下,大大减小了模型的大小和计算量,并在移动端CPU实现了实时的指尖检测。