基于深度学习的手部关键点检测及其移动端应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:wulaixiaosheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人机交互的飞速发展及其应用领域的不断扩大,可穿戴式智能设备和增强现实(AR)和虚拟现实(VR)技术的迅猛发展,手势交互已经成为当前计算机视觉以及人工智能领域的研究热点。然而,目前手部关键点检测领域存在两个方面的问题:一个问题是当前第一视角手势RGB手势数据集较为稀缺,不利于数据驱动方法(比如深度学习)的研究,另一个问题是传统的手部关键点检测方法容易受手势数据的质量,背景颜色,光照条件等因素的干扰,算法性能已经遇到了瓶颈期,且由于模型以及计算量过大等因素,当前的手部关键点检测方法尚无法广泛应用于移动端。因此,如何实时获取第一视角和第三视角手部关键点的位置以便用于后续的交互成为急需解决的问题。针对上述问题,本文对基于深度学习的手部关键点检测及其移动端应用进行了深入的研究和探索,包括:(1)第一视角RGB图像指尖检测;(2)第三视角深度图像手部关键点估计;(3)深度学习模型的压缩以及移动端的部署。主要研究内容和贡献如下:针对第一视角RGB手部关键点检测数据较少的特点,我们采集标注了一个名为EgoGesture的第一视角RGB多手势数据集并提出一个名为YOLSE(You Only Look what You Should See)的全卷积神经网络,用于从第一视角多种手势单帧RGB图片中检测指尖并识别指尖。与目前具有代表性的方法相比,我们的第一视角指尖检测算法不仅达到了可靠性和实时性的要求,而且减弱了指尖检测对手部检测器的依赖性。对于第三视角深度图像手部关键点估计,我们创造性地将三维手部关键点估计任务分解为二维关键点检测任务以及深度值回归任务,提出了基于注意力机制和多任务学习的三维手部关键点估计网络。实验证明,我们的三维手部关键点估计算法可以准确地获取二维的手部关键点位置并利用回归得到的深度值映射得到手的三维坐标。最后,我们提出了移动端指尖检测模型MobileYOLSE并设计实现了IOS端的实时手指尖检测系统。MobileYOLSE利用逆残差模块极大地减少了模型的参数量,通过L1范数剪枝,合并BN层和卷积层的参数等操作,我们在保证甚至提升了模型精度的前提下,大大减小了模型的大小和计算量,并在移动端CPU实现了实时的指尖检测。
其他文献
实心球教学是小学体育必修教学内容,小学生投掷实心球时最容易出现的错误是出手角度和出手高度不够,出现"下砸"现象。本研究从改变实心球的握持方法,探讨哪一种握持方法更有利
回眸2019年,科技创新正在急速改变着金融行业。大数据风控行业密集整治、数字货币雏形初现、刷脸支付纳入金融科技试点等大事件的发生都在预示着金融与科技深度融合、相辅相
文章论述了可视化的硬件描述语言 (Visual HDL)中经常应用的各种状态机算法,分析了这些算法对电路工作性能的影响,使利用状态机设计电路的技巧大大提高。 This paper discusse
中小型图书馆资源的建设是中小型图书馆建设的核心,如今的中小型图书馆在资源建设方面受着种种原因的制约而影响着发展。本文对中小型图书馆资源建设的理念,体系规划,信息的
带不锈钢隔膜的硅压阻压力传感器在航天等许多领域应用很广。它的压力应变膜片是硅应变膜片,其制造工艺是集成电路及微机械加工工艺。将不锈钢隔膜、灌充液及硅应变膜片有机地
目的观察纳米磷酸三钙人工骨(β-TCP)、转化生长因子-β(TGF-β)、胰岛素样生长因子-Ⅰ(IGF-Ⅰ)、脱细胞耳软骨(DC)复合软骨细胞修复关节软骨缺损的效果。方法获取新西兰大白
我院自2001年2月~2004年10月,共收治直肠癌58例,其中误诊37例,均发生在入院之前,平均延误诊治时间为4.8月,误诊率占63.79%,现报道如下.
目的:观察无创辅助通气对重症手足口病早期干预的临床效果。方法所有患儿均常规心电监护、血糖、血压、中心静脉压监测、抗病毒、保护脑组织、防治脑水肿等,研究组在对照组治疗
鲟类为软骨硬鳞鱼,具有个体大、生长快、适应性强、病害少等优良养殖特点[1]。其肉厚骨软,味道鲜美,肉和卵的蛋白质含量高,是高级营养品,尤其是用鲟卵加工成的鱼籽酱,是欧美
民间文学艺术是人类共同的精神财富,其对保持世界文化的多样性,激发当代人的创造力都具有不可低估的作用。目前,世界上只有部分发展中国家对民间文学艺术给予知识产权的保护,