论文部分内容阅读
手势作为一种人与人之间简便、直观的交互形式,随着人工智能和计算机视觉的迅速发展,对手势的识别也从过去的利用各种外界辅助设备到基于计算机视觉的研究阶段。而增强现实作为当前一种新兴的人机交互技术,将真实世界场景与计算机所生成的文字、图像、音频、视频等虚拟信息相结合,利用计算机生成的虚拟信息对真实世界进行补充,使虚拟信息与真实环境可以实时的显示在同一画面或空间,从而能够更加直观地观察分析现实场景中的数据信息和物理对象,是近年来国内外众多学者的研究热点之一。将自然手势用于增强现实系统,通过自然手势与虚拟物体之间的交互,力求解决增强现实在场景中虚实交互的一些主要问题,使其能够营造更加具有沉浸感的交互体验。为了实现对自然手势精细的分割与精准的语义识别,综合考虑现有手势识别算法存在的识别率较低、鲁棒性差、分割准确性不佳等缺点与不足,本文提出了一种基于Mask R-CNN的手势分割与识别方法。该方法通过使用基于多尺度特征融合的特征金字塔网络、优化候选窗口分类器、引入基于评分策略的像素级分割掩码,实现自然手势的精准分割与识别。首先,对Mask R-CNN主干网络中的特征金字塔网络进行多尺度特征融合,使其具有自下而上的反向连接与横向连接和多尺度特征图融合两部分;其次,对窗口分类器在特征提取网络与RoIAlign结构增加Dropout层进行优化,防止训练过程中产生过拟合;最后,引入掩码评分策略MaskIoU Head,对掩码分支进行相应改进,实现掩码的精准分割。通过对增强现实技术的整体流程的分析研究,以图像分割和手势识别为核心,对Mask R-CNN算法进行改进,通过将基于多尺度融合的特征金字塔作为特征提取网络的扩展,对候选窗口分类器改进以防止训练过拟合,将像素级分割掩码结构进行优化修化。实验结果显示,基于Mask R-CNN的改进算法能够有效避免训练过程中产生的过拟合问题,且与传统算法相比,该算法具有更高的手势识别率、更佳的分割精度和鲁棒性。通过获取手势的深度信息与分割结果,对手势位置进行检测,从而实现简单的虚实交互。