论文部分内容阅读
随着科技和社会的发展,人们对现实世界的感知与交互有着越来越多的需求。增强现实技术能够把虚拟信息与现实环境实时地融合在一起并进行互动,增强了人对现实世界的感知和交互,进而提高了人们的工作效率和生活体验。研究增强现实相关技术方法,完善和提升增强现实系统的功能和体验,对于计算机视觉和增强现实应用而言,都有着重要的理论价值和实际意义。 对于增强现实系统,眼动跟踪和人体姿态估计是关键的无穿戴视觉交互技术,而深度重建是场景建模的重要手段。本文针对增强现实系统在视觉交互和场景建模方面所存在的一些局限性问题,从眼动跟踪、人体姿态估计、深度重建等关键技术出发,研究设计新的算法和解决方案,为实现灵敏、高效、鲁棒、易用的增强现实系统奠定技术基础。 眼动跟踪是增强现实系统中一种非常自然高效的视觉交互方式。当前的眼动跟踪方法有着一些局限性问题,如硬件方案复杂性、繁琐的定标、不理想的视线估计精度、不允许用户头部运动、效率达不到实时等,严重影响了眼动跟踪技术的可用性。针对上述问题,本文提出基于RGB-D相机的三维眼动跟踪方案,系统设置简单易行;提出基于三维模型的视线估计算法,容许用户头部自由移动并且提高视线估计精度;提出参数化的虹膜中心定位模型,取得理想的定位精度并对光照变化和遮挡具有较高的鲁棒性;针对用户定标程序繁琐的问题,提出在线定标方法,实现以尽量小的用户负担获得尽量好的用户参数。 三维人体姿态估计是增强现实系统中人体运动分析和人机交互的关键技术。本文针对图像描述中的模糊性和人体外观变化问题,提出将训练样本根据输入图像按局部运动在外观、姿态和时序上的相似性组织为motionlet,能比较好的抓住人体的局部动作相似性,加强图像表示的区分性和鲁棒性。通过局部线性编码和联合字典学习,将复杂高维非线性函数的学习转化为局部线性的平滑稀疏的编码和重建。通过集成多视角线索,提高方法的准确性和鲁棒性。 深度重建是增强现实中重要的场景建模手段。本文针对现实应用中不稳定的成像质量和非控制的环境条件问题,提出层次化的深度匹配算法框架,提高深度重建的效率和鲁棒性。通过结合局部损失聚合和全局损失优化,提升深度重建的精度;通过构建图像金字塔,由粗到精逐级进行重建,提高重建的效率;利用匹配置信度进行多视角的匹配线索融合,有效地降低了匹配歧义性,避免许多错误匹配。该算法框架着重提升现实应用中深度重建的效率和鲁棒性,同时保证重建精度满足应用需求。 针对本文提出的算法,进行了相应的实验评估和比较,并对部分算法开发了相应的演示应用程序。实验结果和应用展示效果表明,本文提出的算法有效地提升了现有方法的精度、效率和鲁棒性,同时改进了相关技术在增强现实应用中的可验。