论文部分内容阅读
在计算机视觉领域,手部姿态估计是通过传感器获得的视觉信息,估计出手部的结构姿态的方法。由于手部姿态估计在基于手势的人机交互、手语识别等领域有着潜在的广泛应用,近年来已经成为计算机视觉中的一个研究的热点。围绕着手部姿态估计,学者们针对不同的输入信息、不同的手部标注构建了不同的数据集,提出了许多方法。但是由于三维手部结构的复杂性和自遮挡等问题,通用的手部姿态估计依然是一个具有挑战性的问题。本文首先构建了一个手型完备的手部姿态估计数据集,然后针对基于深度信息的手部姿态估计问题,结合手部结构的特点,提出了若干创新性的方法,提升了手部姿态估计的性能,同时提高了在不同数据集之间的泛化能力。具体而言,本文的主要贡献有以下三点: ·构建了一个手型完备的手部姿态数据库 随着手部姿态估计研究发展的需要,研究人员采集发布了多个不同的数据集合。然而,由于现有的数据库通常没有考虑手型的完备性,导致其数据的分布并不均匀,难以充分覆盖整个手部姿态空间。其中,MSRA15数据库就从美国手语中选取了部分手型作为采集的手势标准。此外,大部分的数据库只提供单通道的彩色或深度信息,以及三维手部关节点位置的标注。因此,本文根据手指的屈伸组合形成的32个基础手势类别,构建了一个均匀地覆盖了手部姿态的空间的通用数据库ICT_Hand。在数据方面,ICT_Hand同时提供了RGB和深度信息,能够满足多模态输入的手部姿态估计的需要。在标注方面,本文设计了一种在二维图像上高效地标注二维和三维手部关节点位置和手部模型参数的方法。本文通过这种方法对ICT_Hand数据库进行了标注,使其能够适应更广泛的手部姿态估计的需求。 ·提出了一种运动学约束的层级自编码网络回归手部姿态的方法 手部姿态估计是计算机视觉领域中一个非常有现实意义及挑战性的问题。本文提出了一种运动学约束的层级自编码网络回归方法(KCAE)从深度信息中实时地估计手部姿态。该方法由两阶段的层级结构组成,分别用于回归手掌方向和整个手的关节点信息。根据手掌方向可以进行数据归一化和数据扩增,在简化估计问题的同时增加了训练数据量。此外,本文通过在损失函数中加入边长约束项,保持了手部的运动学结构和几何关系,从而得到更合理的估计结果。在KCAE方法的框架下,本文引入了三维卷积神经网络提取的截断符号距离函数特征表示(C3D—TSDF),更好地保留了特征中的三维信息,使得训练得到的模型更适合三维的手部姿态估计问题。该方法在公开的数据库MSRA15上,也取得了优于主流方法的性能。 ·提出了一种结合多任务学习和手部形状回归的跨数据集的泛化手部姿态估计方法 现有的手部姿态数据库有着不同的数据分布和标注类型,这使得跨数据集的泛化手部姿态估计十分困难。本文提出了一种结合稀疏形状回归的多任务学习方法(MT-HSR),可以联合训练带有不同标注类型的数据集,预测所有类别的数据标注,从而提升其泛化能力。该方法主要由多任务学习和手部形状回归两个部分组成。通过将不同的集合上不同类型标注的预测看作是不同的任务,首先通过多任务学习得到训练集合上的所有类型标注的近似。然后,利用不同手部标注点之间天然存在的关系,通过手部形状回归修正这些预测得到的近似的跨集合的标注。最后,利用已知的集合内真实标注和预测的跨集合标注,再次进行多任务学习得到最终的预测模型。该方法通过共享多任务学习框架隐层的权重,增加了模型的泛化性能。此外,手部形状回归模型也利用了手部结构的一致性学习了不同集合的手部标注之间的联系,微调了跨数据集估计的结果。在常用的MSRA15和NYU上进行的跨集合估计实验验证了MT-HSR方法的跨数据集泛化能力。