【摘 要】
:
步态识别是利用步态信息对人的身份进行识别的技术。与传统的生物特征相比,步态特征的远距离识别、非受控识别及难以伪装等优势更为明显且适应范围更广。近年来随着深度学习的发展,基于轮廓图序列的步态识别方法成为了主流。然而,基于轮廓图提取的行人步态特征容易受行人的服装变化,视角变化等外界因素的影响,从而降低步态识别的准确率。本文受人类运动的启发,将人体姿态信息引入到深度卷积网络,提出了基于深度学习的抗服装变
论文部分内容阅读
步态识别是利用步态信息对人的身份进行识别的技术。与传统的生物特征相比,步态特征的远距离识别、非受控识别及难以伪装等优势更为明显且适应范围更广。近年来随着深度学习的发展,基于轮廓图序列的步态识别方法成为了主流。然而,基于轮廓图提取的行人步态特征容易受行人的服装变化,视角变化等外界因素的影响,从而降低步态识别的准确率。本文受人类运动的启发,将人体姿态信息引入到深度卷积网络,提出了基于深度学习的抗服装变化的步态识别方法,主要工作及创新如下:(1)提出了基于3D姿态引导的步态识别方法。利用3D姿态估计技术,建立了行人运动的3D模型,借助神经网络框架,提取行人3D姿态的步态信息。在训练时,利用3D姿态信息引导基于轮廓图的提取分支学习,提高了该分支的特征提取能力;在测试时,仅需轮廓图信息就可完成识别。在CASIA-B公开数据集上的结果表明了所提方法的有效性,3D姿态信息的引导提高了网络的学习能力,进一步丰富了步态特征,提高了模型应对服装等外界变化的鲁棒性,而且降低了3D模型应用的复杂程度,提高了实际应用的可能性。(2)提出了一种基于多模态融合的步态识别方法。首先,将2D姿态热图作为一种模态引入步态识别的网络框架中,用以提高模型的鲁棒性。实验证明,姿态是描述行人步态特征的重要信息。然而,3D姿态估计受技术限制在准确性上仍有不足之处且算法较为复杂。为了提高模型的鲁棒性,本文分别从轮廓图中提取身体外形特征和从2D姿态热图中提取人体姿态特征。实验表明,两种特征的融合使模型在抵抗服装等协变量变化上表现了较好的性能。其次,提出了一种分层的多模态特征融合方案,用以进一步提高步态特征的识别能力。本文将模态内融合和模态间融合整合进深度网络,分别用以增强单模态特征和充分融合多模态特征。模态内融合方式结合浅层结构特征和高层语义特征,提高了单模态特征的识别能力。模态间融合策略充分融合不同模态的信息,进一步丰富了行人的运动描述。多模态特征增强了步态特征识别能力,丰富了步态描述,在CASIA-B数据集上的结果表明该方法显著提高了识别率,特别是提高了模型应对服装变化的鲁棒性。
其他文献
传统语音分离算法的数学建模有很大的局限性,导致其在复杂环境下,比如低信噪比和非平稳噪声等情况下,语音分离效果不理想,无法满足各种实际场景中的应用。而基于深度学习的语音分离算法通过对带噪语音信号与目标语音信号之间的非线性映射关系进行学习训练,因而能够极大的改善在复杂环境下的语音质量。本文主要通过充分利用门控循环单元网络(Gated Recurrent Unit,GRU)的结构优势来提高语音分离的性能
近年来,视网膜疾病是最重要的公共健康问题之一。分析视网膜图像中丰富的病变信息对预防和诊断相关的视网膜疾病有着重大意义。视网膜血管的形态特征如角度、分支、长度、宽度和曲折度在分析视网膜图像的各种特征中有着关键作用,因此对视网膜血管的准确分割非常重要。然而即使经验丰富的专家通过手动方法对视网膜图像进行血管标注也是容易出错并且耗时的,因此,建立模型准确地自动分割血管至关重要。此外,一幅合格的视网膜图像是
生成对抗网络是一种无监督学习的深度学习模型,已广泛地应用于人脸合成、图像风格迁移、图像修复、高分辨率图像生成等计算机视觉领域。但是传统的生成对抗网络无法完成训练集较小的生成任务,而结合半监督学习的生成对抗网络不仅可以扩充训练样本量,而且能增强模型的鲁棒性。中国书法是中国的特色文化艺术,是中华民族的象征性符号。在书法漫长的演变岁月里留下过很多精彩绝伦的书法作品,然而这些作品中保存下的书法汉字十分有限
深度学习在语音识别领域的快速发展,使得语音识别系统的准确性和实时性得到了巨大的提升。近年来,市场上涌现出了类型种类众多的智能语音产品,例如带语音助手的智能手机和具有语音控制功能的智能家居等。近年来有研究表明深度学习容易遭到对抗样本的攻击,误导语音识别系统做出错误的翻译或攻击者指定的翻译,且此类攻击很难被人类察觉。尽管如此,对抗样本的研究也有助于提高深度学习的安全性。目前的语音识别领域的对抗样本攻击
随着互联网的发展,数据呈现出爆炸式的增长,许多有应用价值的信息蕴含在冗余繁杂的数据当中,如何充分挖掘这些数据,一直都是计算机领域研究的热点问题。同时,由于人的社会性,图会随着时间的推进呈现出一定的演化趋势,这为问题的解决增加了一定的难度。近年来,基于图卷积的数据挖掘引起了研究者的广泛关注,图卷积是卷积神经网络在图上的扩展,它不仅能提取深层次的特征,还保留了卷积网络权值共享的优点,降低了模型的时间复
大数据环境下写多读少的场景日益增多,非结构化数据的比例也逐渐提升,越来越多的企业采用KV数据库来代替传统的关系型数据库。LSM-tree(Log-Structed-MergeTree,日志结构合并树,后文统称LSM树)由于其出色的写入性能,被众多KV数据库采用作为底层存储引擎。尽管KV数据库在数据存储规模、可扩展性上均有着传统数据库无法比拟的优势,但依然面临着数据爆炸式增长带来的存取压力。目前大多
高质量发展是当下我国职业教育改革与发展的主旋律,文章就如何摆脱路径依赖,提升职业教育层次,深耕高质量发展,中职教师职业倦怠的影响进行梳理和探究。
异构信息网络是对真实世界多元化实体及实体间复杂关系的一种抽象表示,如社交网络、电商网络等。随着各种线上平台的不断发展和网络规模的不断扩大,异构信息网络中除了网络结构信息之外,还有复杂的异质性信息,比如多样化的节点属性信息和交互附带的额外信息。在大规模异构网络中挖掘出有价值的信息是异构网络表示学习的内容,也是近年来大规模网络数据挖掘领域最为热门的课题。早期网络表示学习大多采用矩阵分解的方式,具有高计
随着新课程改革的深入推行,核心素养深入人心,受到了教育工作者的重视。初中数学核心素养涵盖范围大,有数感、空间概念、几何直观、运算能力、推理能力等,数学老师只有全面了解并掌握核心素养的内涵,才能帮助学生更好地理解数学知识,提高数学学习综合能力。为此,数学老师必须要改变以往"理论灌输式"和"题海战术"教学模式,以核心素养为培养目的,开展大单元教学模式,把课堂交给学生,让学生根据自己的思路自主去探究知识
从人类自然语言中提取和准确分类语音中的情感状态一直是人机交互的一个难点,同时相关研究在人工智能领域发挥着至关重要的作用。语音情感识别研究的主要目的是能够让机器感知人类的情情感,并做出相应的反馈,从而能在智能语音客服、智能翻译、智能远程教育等多个领域展现应用价值,这也使基于语音的人类情感识别成为了当代人工智能领域的热门课题。但是,目前语音情感识别系统的识别率无法满足大规模商用,因此,提高语音情感识别