论文部分内容阅读
随着科技的高速发展,越来越多的技术被运用到人们的日常生活中来,因此,通过科技使人们过上更加舒适简洁的生活也成为了当今学术界和工业界的一致目标。而近来人工智能的兴起更是掀起了智能化生活的热潮,其中,人机交互作为人与机器的交流方式,在智能化生活中更是必不可少。而手势识别作为一种简单自然的交互方式,更是备受瞩目,人们期望通过手势识别使得人机交互变得方便自然,更加贴近人类的生活习惯。因此,为了促进动态手势识别准确率的提升,本文主要做了如下工作:(1)针对动态手势识别中,需要尽量保留手势视频中含有运动信息的帧图像的问题,提出一种“关键帧”提取方法。首先,对手势视频做统一帧数处理,在对数据集进行统计分析的基础上,确定网络输入视频的基准帧数。其次,在视频采样的过程中,为了尽量保留富含运动信息的“关键帧”,根据光流值可以代表运动剧烈程度的原理,使用一种基于光流的加权平均采样方法,根据原始视频中各段的平均光流值来对视频按比例进行采样。最终获得了帧数统一且含有丰富运动信息的手势数据集。(2)针对动态手势具有时序特征以及深层网络遇到的退化问题,使用一种由残差思想改进的三维卷积神经网络进行手势的特征提取。在动态手势识别中,需要用三维卷积神经网络来同时提取手势的时序和空域特征。在此基础上,为了更深层次地学习手势的抽象特征,本文使用一个将残差思想与三维卷积神经网络结合起来的ResC3D网络来分别对RGB、深度、光流数据进行特征提取。(3)针对单种数据无法表达手势所有信息的问题,提出一种基于CCA典型相关性分析的特征融合策略。在手势识别中,为了获得手势的更多信息,需要对多种数据进行融合。本文首先分析了视频、特征、决策这三种级别的融合策略,根据实际情况确定了进行特征级别的融合。其次,对于特征融合,本文又分析了均值融合和级联融合的优缺点,根据对识别效果和训练时间的衡量,使用了一种CCA典型相关性分析融合方法,其根据各种模态特征之间的相关性,将RGB、深度、光流这三种特征融合到一起,得到一个含有丰富信息的综合特征,为后续的分类识别奠定了基础。为了验证本文算法的有效性,本文使用ChaLearn大规模独立手势识别大赛的官方数据集——IsoGD数据集进行了实验与测试。首先针对上述创新点进行了单独的对比实验,并分别对其进行分析,证明了上述改进的有效性与必要性。随后,将本文算法的最终结果与其他使用同样数据集的优秀算法进行对比,证明了本文算法的优越性。