基于深度信息的手部姿态估计方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:xp1308729
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机视觉领域,手部姿态估计是通过传感器获得的视觉信息,估计出手部的结构姿态的方法。由于手部姿态估计在基于手势的人机交互、手语识别等领域有着潜在的广泛应用,近年来已经成为计算机视觉中的一个研究的热点。围绕着手部姿态估计,学者们针对不同的输入信息、不同的手部标注构建了不同的数据集,提出了许多方法。但是由于三维手部结构的复杂性和自遮挡等问题,通用的手部姿态估计依然是一个具有挑战性的问题。本文首先构建了一个手型完备的手部姿态估计数据集,然后针对基于深度信息的手部姿态估计问题,结合手部结构的特点,提出了若干创新性的方法,提升了手部姿态估计的性能,同时提高了在不同数据集之间的泛化能力。具体而言,本文的主要贡献有以下三点:  ·构建了一个手型完备的手部姿态数据库  随着手部姿态估计研究发展的需要,研究人员采集发布了多个不同的数据集合。然而,由于现有的数据库通常没有考虑手型的完备性,导致其数据的分布并不均匀,难以充分覆盖整个手部姿态空间。其中,MSRA15数据库就从美国手语中选取了部分手型作为采集的手势标准。此外,大部分的数据库只提供单通道的彩色或深度信息,以及三维手部关节点位置的标注。因此,本文根据手指的屈伸组合形成的32个基础手势类别,构建了一个均匀地覆盖了手部姿态的空间的通用数据库ICT_Hand。在数据方面,ICT_Hand同时提供了RGB和深度信息,能够满足多模态输入的手部姿态估计的需要。在标注方面,本文设计了一种在二维图像上高效地标注二维和三维手部关节点位置和手部模型参数的方法。本文通过这种方法对ICT_Hand数据库进行了标注,使其能够适应更广泛的手部姿态估计的需求。  ·提出了一种运动学约束的层级自编码网络回归手部姿态的方法  手部姿态估计是计算机视觉领域中一个非常有现实意义及挑战性的问题。本文提出了一种运动学约束的层级自编码网络回归方法(KCAE)从深度信息中实时地估计手部姿态。该方法由两阶段的层级结构组成,分别用于回归手掌方向和整个手的关节点信息。根据手掌方向可以进行数据归一化和数据扩增,在简化估计问题的同时增加了训练数据量。此外,本文通过在损失函数中加入边长约束项,保持了手部的运动学结构和几何关系,从而得到更合理的估计结果。在KCAE方法的框架下,本文引入了三维卷积神经网络提取的截断符号距离函数特征表示(C3D—TSDF),更好地保留了特征中的三维信息,使得训练得到的模型更适合三维的手部姿态估计问题。该方法在公开的数据库MSRA15上,也取得了优于主流方法的性能。  ·提出了一种结合多任务学习和手部形状回归的跨数据集的泛化手部姿态估计方法  现有的手部姿态数据库有着不同的数据分布和标注类型,这使得跨数据集的泛化手部姿态估计十分困难。本文提出了一种结合稀疏形状回归的多任务学习方法(MT-HSR),可以联合训练带有不同标注类型的数据集,预测所有类别的数据标注,从而提升其泛化能力。该方法主要由多任务学习和手部形状回归两个部分组成。通过将不同的集合上不同类型标注的预测看作是不同的任务,首先通过多任务学习得到训练集合上的所有类型标注的近似。然后,利用不同手部标注点之间天然存在的关系,通过手部形状回归修正这些预测得到的近似的跨集合的标注。最后,利用已知的集合内真实标注和预测的跨集合标注,再次进行多任务学习得到最终的预测模型。该方法通过共享多任务学习框架隐层的权重,增加了模型的泛化性能。此外,手部形状回归模型也利用了手部结构的一致性学习了不同集合的手部标注之间的联系,微调了跨数据集估计的结果。在常用的MSRA15和NYU上进行的跨集合估计实验验证了MT-HSR方法的跨数据集泛化能力。
其他文献
人脸表情在人们日常生活中起着重要的作用,是人们非语言交流的一种重要方式。人脸表情是是情感的主要载体,传达了人机交往中的大部分信息。表情是智能的体现,长期以来表情一直是
当前社会对个人身份的安全性要求逐渐提高,依赖于人体固有生理特征的生物识别技术在各种身份认证领域得到广泛的应用。指纹识别技术由于其个体唯一性、稳定性和简单易操作性
普适计算作为一种新型的分布式计算模式,反映了人们对信息服务的更高需求,展现了信息空间、物理空间及用户空间三者无缝融合的前景,是计算机技术发展的必然趋势。   普适计算
近年来,P2P技术受到人们的广泛关注。在P2P网络中所有的节点均是对等的,各节点具有相同的责任与能力并协同完成任务。然而P2P网络的开放性和匿名性使得P2P系统的安全问题变得
随着网络技术的发展,Web技术日益成熟,Internet收集了海量的信息资源,这些资源具有异构、更新变化快、分布分散而且结构松散等复杂特性,传统的数据库技术不再满足数据管理的
作为一种传统医学,中医学已有数千年的历史。在中医发展的几千年过程中,积累了很多治疗病症的方剂。方剂数目庞大,涉及的药物也非常多。如何利用这些海量信息为防治疾病提供科学
入侵检测是一种积极主动的安全防护技术,它可以监视主机系统或是网络上的用户活动,发现可能存在的入侵行为。但由于我国入侵检测技术研究起步较晚,目前入侵检测系统依然存在
无线传感器网络由部署在监测区域内的大量廉价的传感器节点组成,各个节点之间通过无线通信方式自组织形成网络系统,协作地进行感知、采集和处理周围环境或感知对象的信息,并
普通的分组检测仅仅检测分组的头部,深度分组检测(Deep Packet Inspection)有时也称为完全分组检测,属于应用语义级的检测。随着计算机网络的发展,网络的功能正逐步从简单的“浅层
存储系统逐渐成为网络服务器系统的主要瓶颈。为了提高存储系统性能,当前研究的明显趋势是通过对应用负载进行分析,针对访问特征对数据预取、缓存替换、数据分布等策略进行优化