论文部分内容阅读
基于视觉的手势交互,相对于鼠标、键盘等传统的人机交互方式,能够以非接触的交互方式避免对用户的侵入性,并且更加直观、更加自然,在虚拟现实、手语识别、智能操控等领域有着广阔的应用前景。所以基于视觉的手势交互研究在计算机视觉、模式识别及人工智能等领域获得了广泛的关注。同时,它也面临着手势自由度高、应用情境背景多变、操作者个体差异等多方面的挑战,因此在该领域的研究具有重要的潜在研究价值。
本文的研究首先由投影环境下的手势交互入手,建立了投影仪-摄像头交互系统。通过主动红外光源的设计,消除了投影环境下背景、光照等的变化,以期实现实时性的手势交互。研究主要围绕基于图像处理和统计模式识别的方法进行,在此基础上对更为广泛的复杂背景下的手势交互进行了深入的探索。
在对手势交互关键技术的研究中,本文的主要工作和成果包括以下几个方面:
1.投影交互环境下的手部定位和指尖定位,以求满足投影交互的基本需求。主要是通过帧间差分、边缘提取和引入手臂的几何约束的方法实现手部的定位,再利用漫水填充算法实现手部的分割。然后,结合Deutsch骨架提取算法及基于SUSAN算子的角点检测算法,完成实时指尖定位。
2.在对Dalal等人提出的基于梯度直方图(HOG)特征和线性支撑向量机(SVM)的目标检测技术的研究基础上,实现了复杂背景下的快速人手检测。具体来说,对图像局部划分进行了改进,避免了特征计算中对图像的重复扫描,增强了局部到整体的特征映射,并采用预计算方式极大地缩减了特征提取过程的时耗。在这部分工作基础上引入候选框置信度,并采用尺度分组的方式实现了对单手的实时检测追踪。
3.对HOG特征进行了改进,实现了特征长度压缩和检测率提高的双重优化。引入局部PCA,根据局部特征在整体判决中的作用,自适应地对局部特征进行压缩,实现了对HOG特征的有效降维;并结合UniformLocalBinaryPattern这种纹理描述特征,增强了特征的局部描述力,完成了对HOG特征的改进。
4.开发了一套名为“图片浏览器”的交互应用。在主动近红外成像基础上,实现实时人手检测、追踪,并通过对人手信息的分析获取手势语义,完成对图片的浏览和操作。