基于回复式神经网络的图像序列识别若干问题研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:itismewhq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着摄像监控设备以及智能移动设备的普及,安防、娱乐等领域视频数据呈现爆炸式增长,利用人工智能技术理解视频内容成为建设“智慧城市”的重要环节。作为视频分析技术的重要分支,图像序列(视频)识别是计算机视觉中的热点研究方向,在人机交互、智能监控、自动驾驶等领域都有着广泛的应用。随着深度学习的发展,尤其是回复式神经网络的“记忆”功能,基于回复式神经网络的图像序列(视频)识别取得了显著成果。然而,面对视频外观变化、背景变化、质量低下等干扰因素的影响,利用回复式神经网络学习图像序列中具有辨别力的特征表示,仍然极具挑战性。本文围绕基于回复式神经网络的图像序列(视频)识别问题展开相关研究。首先,通过步态识别(工作一)解决视频分析中的“是谁”问题;在此基础上,从三个方面(工作二、三、四)对人体行为进行识别,解决视频分析中的“做了什么”问题。本文的四项研究工作以及贡献包括:(1)人体步态识别算法受限于外在形象的差异、拍摄角度的变化、背景内容的复杂等因素,往往识别效果不佳。本文提出基于记忆学习的步态识别算法。首先,作为前期工作,手动标注少量人体步态关节点数据,包括正样本和负样本(不存在人物的数据)。然后,利用标注的人体步态数据,迁移已有的人体姿态估计模型,也就是微调模型参数,使得姿态估计算法能够处理人体步态图像,最终获取人体步态数据集的2D关节点信息。接着,使用回复式神经网络,记忆学习步态关节点序列数据,实现人体步态的识别。最后,在不同视角、外形变换的两个公共步态识别数据库上评估所提算法,验证了基于记忆学习的步态识别算法的有效性。(2)人体关键点位置的持续移动可以刻画出各种复杂的行为动作。传统的基于骨架信息的行为识别通常设计复杂的手工特征或者通过深度学习技术学习深度特征对行为动作进行识别。不同于直接利用学到的特征构造行为分类器,本文试图通过预测行为序列的发展趋势来识别人体骨架行为。本文提出基于序列预测学习的骨架行为识别算法。该算法充分利用骨架序列之间的时间依赖关系,基于行为发展趋势来分类人体骨架行为。首先,利用回复式神经网络为每一类型的行为构造专属的行为趋势预测器,构成行为预测器集合。给定输入序列,每个预测器都可以预测输出下一时刻的人体姿态。接着,随着测试样本的序列输入,集合中的行为预测器会根据提前设定的移除规则,判断自己是否匹配该测试样本。最终,集合中留下的行为预测器的标签即为测试样本的分类结果。在单人和多人交互的公共骨架行为数据集上的评估结果表明,行为发展趋势作为人体行为的重要特征,能够很好地区分不同的人体动作。(3)基于视频的行为识别算法经常受到背景混乱、光照变化等各种干扰信息的影响,导致算法性能不佳。基于深度学习的方法能够学习到鲁棒的行为特征,但是这些特征依然会掺杂无关信息。为了有选择性地关注与视频行为相关的重要线索,本文提出基于3D注意力双流结构的行为识别算法。该算法从三个方面有选择性地关注对识别视频行为有用的时空特征。具体地,基于已有的深度学习模型,提取视频的帧间光流特征和帧内空间特征。然后,设计一种高效的3D注意力模块。该模块可以沿着视频深度特征的通道方向、空间方向、时间方向优化原始的特征表示。接着,时间分割池化过程用于处理优化后的时空特征,从而达到压缩时间维度、综合学习视频数据的目的。经过基于回复式神经网络的双流网络处理,最终学习到具有区别力的时空特征,分类视频中的行为活动。另外,本文收集了一个新的乒乓球动作数据集,在该数据集和HMDB51行为数据集上,所提算法均获得了具有竞争力的行为识别效果。(4)对于跨数据集的视频行为识别任务,源域和目标域数据分布往往不同,而域自适应的目标就是解决域偏移问题,从源域数据中学习数据模型,迁移原有知识用于处理目标域任务。域对齐作为常用的学习域间不变特征的方法,往往因为缺乏目标域数据标签而成为一项极具挑战的任务。本文提出基于类协同学习的无监督领域自适应行为识别算法。该算法由三部分构成:共享的双流网络,基于类协同学习的伪标签预测模型和目标域分类器。首先,在协同学习的启发下,本文提出一种类协同学习的伪标签标记算法。然后,在类别对齐的约束条件下,逐步学习源域和目标域的域不变特征表示。接着,利用学到的目标域样本伪标签,训练针对目标域任务的特定分类器,用于对目标域数据的分类识别。最后,从四个公共视频行为数据集中挑选出具有相似类别标签的行为活动,组成四组互为源域和目标域的行为数据集。实验结果表明,本文提出的跨数据集的视频行为识别算法取得了很好的识别效果,能够自适应地实现跨数据集知识迁移。
其他文献
智能响应型光功能材料因其可控的光学性质,如吸收、发光强度、波长以及寿命等,在信息存储和安全防伪等领域展现了巨大的应用潜力。目前该领域面临的主要问题是:记录的信息颜
大额持股监管制度在我国对应的法律文本是2019年修订的《中华人民共和国证券法》(以下简称新《证券法》)1第四章上市公司的收购中第六十三条、六十四条。当然,规范大额持股行
薄膜晶体管(thin-film transistor,TFT)是平板显示器、记忆卡、射频识别标签和其他电子设备应用的关键元件。目前的微电子技术几乎完全基于单晶硅技术。虽然基于该技术的器件已
猪苓Polyporus umbellatus(Pers.)Fries为多孔菌科(Polyporaceae)药用真菌,富含甾体类和多糖类功效成分。我国的长白山、燕山、太行山、秦岭和云贵高原等山区是猪苓的主要产区,这
烯胺酮及其硼配合物具有合成与化学修饰方便,发光行为易于调控、稳定性好等优点,并可以通过四配位硼配合物的形成有效地增强分子刚性和拉电子能力,进而作为受体单元构造热活
研究背景:泛素蛋白酶体系统(UPS)的组成包含泛素激活酶(Els)、泛素结合酶(E2s)、泛素连接酶(E3s)、蛋白酶体(Proteosome)和去泛素化酶(DUBs)。自20世纪70年代早期发现泛素以
近年来,随着柔性电子学的发展,可折叠、可穿戴的柔弹性器件备受国内外研究者们的关注,逐渐成为当前重要的前沿研究领域。相对于传统电子器件,柔性电子器件具有更大的灵活性,
低渗煤层如何增加煤层渗透率已成为制约煤矿瓦斯抽采的瓶颈。近些年水力压裂增渗技术已经成为了一种大面积增加煤层渗透性的区域性措施。前人对水力压裂的研究主要着重于水力
衰老是所有生物体不可避免的进程,同时也是导致大部分神经退行性疾病发生的主要原因。氧化应激与衰老密切相关,而且在引起衰老相关神经退行性疾病的神经元细胞死亡和神经突生
骨肉瘤(oseteosarcoma,OS)是一种常见于儿童和青少年的原发性,高度恶性骨肿瘤,也是骨科最为常见的恶性肿瘤。骨肉瘤好发于长骨干骺端,尤其是胫骨近端近膝关节。据美国癌症中