论文部分内容阅读
经过几次计算机革命之后,如今智能生活无处不在,人机交互成为人类世界中不可或缺的角色。随着可穿戴设备受到越来越多人的广泛关注,人机交互走入人们的日常生活。而人类发展的历史长河中肢体语言是最初始最自然的交互方式,所以第一视角下的手势检测及识别在人机交互中具有非常大的研究意义与研究价值,使得计算机和人的“沟通”更加便捷。最近几年来卷积神经网络(Convolutional Neural Networks,CNNs)在不同的领域都表现得非常出色,与传统的方法相比能够解决较为复杂的模式识别问题。卷积神经网络通过对大量的已标注的数据进行学习从而提取图像的特征信息。在图像处理领域,如自然场景的文字识别检测,自动驾驶中障碍物和警示牌的检测,人眼定位等都取得了非常好的成绩。本文研究基于深度卷积神经网络算法对第一视角的多种手势进行检测、识别以及指尖定位。主要研究不同的动态或静态手势在人机交互中的应用,设计第一视角手势交互应用系统。目前第一视角的手势数据量较少,背景也相对单一,手势检测、识别以及指尖定位的算法都不能够满足应用要求,故本文在数据构建、算法优化、应用实现等方面进行研究,主要工作如下:1.研究分析不同国家的文化,定义相对直观、易于理解的数字手势,基于第一视角的不同场景不同光照情况下采集RGB手势视频,并标注手势的外接矩形框,从而构建可用性高的两个数据集(EgoFinger and EgoGesture);2.手势在人机交互中的应用称为手势交互系统,本文将手势交互分为手势检测、手势识别、指尖定位,融合手势检测和手势识别模块作为算法的第一个级联网络,提出基于卷积神经网络算法实时且准确的检测手势在图像中的位置,及识别手势的种类;3.本文提出基于全卷积神经网络以热图的方法估计不同手势指尖点的位置,有效去除复杂背景的干扰,降低指尖估计的难度,在准确性和实时性上都有非常大的突破;4.本文基于第一个级联网络和第二个级联网络研究动态手势在人机交互中的应用,结合Qt开发框架完成空中鼠标及空中手写交互系统搭建。