基于深度学习的手势识别算法研究

来源 :长春理工大学 | 被引量 : 0次 | 上传用户:ZWCSS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二十一世纪的今天正处在新一轮人工智能浪潮的上升期,人工智能的普及给我们带来的便利不言而喻。人机交互技术在人工智能领域扮演着至关重要的角色,而人脸、手势以及肢体是基于视觉的人机交互方式中最常用的信息,其中手势交互凭借其便捷的操作和灵活的表达,受到众多研究者的青睐。由于实际应用中手势识别需要较高的实时性以及准确率,因此如何高效准确的识别手势成为人机交互中研究的关键。本文从静态与动态手势两个方面展开研究,主要工作内容如下:1)基于目前目标检测算法在静态手势识别中的广泛应用,以及对卷积神经网络高效准确的识别要求,提出以Center Net模型为基础进行改进的静态手势识别算法。通过设置不同数目及大小的非局部模块解决普通卷积方式仅关注局部信息的问题,提高网络获取全局信息的能力;利用深度可分离卷积改进模型中的残差网络,有效减少网络的计算量,优化网络结构;针对低显环境下小批量学习不准确的问题,提出采用组规范化代替批量规范化的改造方案。实验表明,改造后的Center Net算法能够有效的提高网络对手势模型的泛化能力,其手势的识别率与原网络相比提高了4.9%,检测时间也减少了0.005s。2)针对目前几种常用采样方法中关键帧提取不准确的问题,提出一种基于光流法的视频关键帧提取方法,该方法通过对比目标的变化剧烈程度来提取每段视频中的关键帧,进而组成标准的动态手势视频序列。除此之外,为了避免训练过程中出现过拟合的问题对数据集进行了扩展。实验表明,光流法能够有效的从视频中提取到带有运动信息的关键帧,对手势的识别准确率上有明显的提升作用。3)利用多种数据融合的方式提高目标识别精度已经成为人体动作识别中比较常用的方法。但目前主流的几种融合方式,其结果都只是对多种模态数据的堆叠,对手势识别率的提升效果并不明显。因此,本文结合RGB、Depth以及光流数据,提出一种以C3D网络模型为基础的多模态数据联合训练的方法,首先利用C3D卷积神经网络获取RGB数据的训练模型,然后再将Depth以及光流数据分别在得到的RGB训练模型上进行微调,得到各自模态数据的训练模型。经过实验证明,该训练方式不仅能够提高手势的识别准确率还可以加快Depth和光流数据训练过程中的收敛速度。
其他文献
超连续谱具有光谱范围宽、功率高和低相干性的特点,非常适合应用于光学相干断层扫描系统。而1.6μm波段的激光位于水吸收和散射谱的低谷位置,能够有效降低水吸收和散射损耗,可作为光学相干断层扫描系统的理想光源。因此,本论文在1.6μm锁模光纤激光器基础上结合非线性效应探讨了1.6μm波段超连续谱的产生,并将超连续谱应用在光学相干层析扫描技术中。具体研究内容如下:1.设计基于非线性偏振旋转(NPR)锁模机
为了实现GaAs基量子阱半导体激光器更宽的光谱范围,InGaAs/GaAs应变量子阱被广泛应用在量子阱激光器中。同时,应变多量子阱可以实现更高的材料增益,但随之而来的应变积累会引发晶格错配,并出现层-层生长模式向层-岛生长模式转变等问题,给外延生长带来一定难度。与传统无应变GaAs势垒相比,GaAsP势垒作为一种拉伸应变材料,可在InGaAs量子阱结构中减小应变积累,增加临界厚度。并且在量子阱激光
背景:迁移赔补与日俱增,风险凸显rn运营商网络资产迁移赔补业务主要指因城镇道路、市政设施新增改建导致通信设施迁改、维修或损坏,政府部门、独立法人机构或个人等主体给予电信企业的赔偿或补偿.rn近年来,城市基建不断加强,轨道交通与高速公路铺展开来.运营商面临着日益增长的网络资产迁移及较大规模的补偿款.据统计,某省电信公司2013年至今产生迁移赔补合同8000余份,合同金额约40亿元;其中,某地铁线通信管线改造项目跨期3年.由此可见,运营商迁改业务存在数量多、金额大、周期长等特征.
期刊
随着我国大型装备制造业的快速发展,在航空航天、汽车制造、船舶等领域对大尺寸对象的测量需求越来越多,高效率、高精度的大尺寸测量技术是我国研究人员不懈追求的目标。传统的测量技术由于测量范围有限、操作复杂等因素,不能较好的保证大尺寸测量对象的测量精度及测量效率。本文针对大尺寸对象单系统站位测量效率低下、视觉测量需要布设大量合作靶标、全局扫描精度低等问题开展了面向大尺寸对象的组网式视觉跟踪扫描技术研究,对
语音作为信息交互的媒介,相较于其它的交互方式,其表达更直观简洁。通过语音交互传递信息更加自然、灵活且传递效率更高。在现实生活中,语音的采集和识别系统的性能与接收到的目标音频的质量有关,然而语音信号在编码、传输过程中无法避免与噪声产生混杂,导致语音采集和识别的结果较差。通常使用语音增强技术来处理带噪语音信号是为了抑制噪声对语音产生的影响。大多数语音增强算法为了降低算法的复杂度,对不同类型的噪声采取相
科技的飞速发展总是让生活在21世纪的我们感到应接不暇,但又必须深刻地认识到“科学源于生活,并在以惊人的速度改变着生活,创造着崭新的历史,带领着我们向着更加美好的方向前行”.生命科学作为与我们息息相关的科学更是如此,甚至有人称“21世纪是生命科学的世纪”.
期刊
面对海量的城市监控视频数据,通过智能分析代替人工查看的方式在安防领域已得到大量研究学者的关注。行人重识别作为监控视频内容分析的核心,得到了迅速的发展。其目的是解决跨摄像头后,通过行人的外观视觉特征和动作特征在海量的图像或视频库中检索特定行人的问题。对相互联网的不同摄像头拍摄到的行人身份进行关联,以便及时获取特定行人的运动轨迹。现实生活中由于监控环境复杂多变,摄像头安置位置各异以及光照强弱不同等影响