论文部分内容阅读
商用级深度摄像机的出现为基于手势的人机交互提供了自然且极富魅力的选择,使得基于3D的人机交互技术成为学术界研究的热点。本论文提出了一种图像到类的动态时间规整算法(Image-to-Class Dynamic Warping,I2C-DTW),并在3D静态和动态手势识别中取得了优异的效果。本论文的主要学术贡献如下:提出I2C-DTW算法。传统图像到图像的动态时间规整算法(Image-to-ImageDTW,I2I-DTW)利用图像到图像之间的规整路径计算相似度,对于类间差异大的样本有很好的效果,但是对于类间差异小且有部分相似性的样本却无能为力。针对该问题,I2C-DTW算法通过计算测试样本与类训练样本之间的规整路径得到图像到类的总规整路径,最终对测试样本分类。同传统图像到图像的动态时间规整算法相比,I2C-DTW提高了算法的泛化能力。基于前述的I2C-DTW算法,提出利用I2C-DTW识别3D静态手势。其主要思想是根据不同的手指组合,把静态手势的时间序列曲线分割为多个手指描述器。手指描述器表示手势的一种特征,能有效区分类间差异。识别过程中,I2C-DTW算法在每一类训练样本中搜索与测试样本相对应的手指描述器,寻找其最小规整路径,把所有手指描述器间的最小规整路径相加得到该类训练样本与测试样本的相似度,路径越短相似度越大。遍历完所有的类后,相似度最大的类就是测试样本所属的类。该方法在3D静态手势数据库10-Gesture、UESTC-ASL上进行实验验证,平均识别率分别为99.5%、90.5%。此外,论文还提出基于I2C-DTW的3D动态手势识别。根据动态手势的特点,首先提取手掌的运动轨迹,并转换为x方向和y方向上的时间序列曲线,分别作为轨迹描述器。类似的,在识别时I2C-DTW算法会在每一类视频训练样本中搜索与测试样本相对应的轨迹描述器,寻找其最小规整路径,把所有轨迹描述器间的最小规整路径相加就得到了该类训练样本与测试样本之间的相似度,路径越短相似度越大。遍历完所有的类后,相似度最大的类就是测试样本所属的类。该方法在3D动态手势数据库UESTC-DGL上进行了验证,平均识别率达到了98.44%。论文实现了实时的手势识别,实验结果表明I2C-DTW算法提高了识别性能,在小样本的情况下也能保证较高的识别率。