行人重识别特征提取与生成

来源 :石家庄铁道大学 | 被引量 : 0次 | 上传用户:supperkk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行人重识别技术即根据行人的衣着、姿态、发型等信息从非重叠摄像机视角下的行人图像库中找到与某行人属于同一身份的图像,是当前计算机视觉研究的热门方向。随着监控视频在日常生活中的普及,行人重识别可应用于商场寻人,警方搜查嫌疑人等场景,其中视频到视频(Video-to-Video,V2V)、图片到视频(Image-to-Video,I2V)的行人重识别更适用于实际。然而,V2V行人重识中如何精准且完整地提取视频中时空特征亟待解决。另一方面,I2V行人重识别也面临图片与视频的信息量不对称而难以进行特征比较的问题。本文利用计算机视觉和深度学习,围绕V2V行人重识别中的时间特征与空间特征提取以及I2V的行人重识别信息不对称问题展开研究。具体工作如下:(1)视频时间特征提取。针对V2V行人重识别问题,本文提出了长短时特征融合(Long-short Temporal Feature Fusion,LSTFF)网络。首先对输入的视频序列按时序做分段处理,通过不同伪3D模块辅以改进Non-local注意力模块获取片段级短时信息特征。接着使用全局注意力层来聚合所有片段特征,获取输入视频的长时信息特征。LSTFF网络在MARS、iLIDS-VID以及DukeMTMC-VideoReID数据集上Top1指标分别达到了 89.6%、89.3%和94.7%,对比各数据集 Baseline 分别提升了 2.3%、2.7%和 7.4%。(2)视频空间特征精炼。本文提出了掩膜引导参考注意力(Mask-guiding Reference Attention,MRA)模块,使用特定的掩膜引导参考注意力促使网络关注行人自身值得注意的部位,降低背景等无用信息的影响,不断累积有效空间信息。此外本文将MRA模块与LSTFF网络结合,提出时空特征融合(Spatial-Temporal Feature Fusion,STFF)网络,使用 MRA 模块替换 LSTFF 网络中的自注意力模块,同时提取视频序列的时间与空间信息,优化行人特征。在MARS、iLIDS-VID以及DukeMTMC-VideoReID数据集上,STFF网络Top1指标对比各数据集 Baseline 分别提升了 2.9%、0.1%和 7.2%,达到 89.5%、83.4%和 95.3%。(3)图片时空特征生成。为解决I2V行人重识别中信息不对称问题,本文提出了对抗生成时空特征(Generative Adversarial Spatial-Temporal Feature,GASTF)网络。GASTF网络分为特征生成流和特征提取流。特征生成流以单张图片作为输入,使用对抗生成网络生成时空视频特征。特征提取流以视频作为输入,采用基于Non-local自注意力模块的ResNet50网络,提取输入视频序列的时空特征。最后强制双流网络输出的特征相似,优化特征生成流网络参数,起到为图片补充逼真时空特征的作用。GASTF网络首次将对抗生成网络应用于I2V行人重识别,在 MARS、iLIDS-VID 以及 DukeMTMC-VideoReID 数据集上 Top1 指标分别达到74.3%、45.3%和75.6%。
其他文献
随着我国城市经济的飞速发展,我国的机动化水平也在不断提高。城市市政基础设施也随之迅速发展,城市面积不断扩张,城市的道路里程与道路密度也逐渐增加。然而,一方面由于近几年城市地下空间的的不断开发利用,使得路面不断出现下陷和沉降过大等问题。另一方面由于车辆荷载、天气条件、施工工艺以及施工质量等问题,使得不同程度的路面破损现象在城市道路中十分常见。并且由于相关道路养护部门对城市道路路面质量的检测以及对现有
学位
旋转部件作为机械设备中最常见的组件,是工业化生产的重要组成部分,被广泛应用于航空航天、交通运输、机械制造、新能源和深空探测等领域。在机械设备中,旋转部件的工作环境恶劣多变,长期运行过程中发生故障的可能性增加。旋转部件实时监测和故障预测能够有效地预防设备发生事故,避免巨额的经济损失和严重的人身伤害,在工程中具有重大应用价值。对于旋转部件参数的测量,传统的接触式测量方法难以满足高速旋转环境下的需求,因
学位
随着全球跨境电子商务的迅速发展和全球经贸一体化趋势的增强,跨境电商作为依托互联网技术成长起来的新型跨境贸易形势,受到各国的普遍重视,现已成为对外贸易的重要力量和我国经济的新增长点。目前,全球跨境电商行业正处于高速发展期,具有交易规模持续增长、发展不平衡、地区间差异较大、品牌效应逐渐增强等特点。跨境供应链管理成为制约跨境电商企业发展的关键。目前,跨境电商企业对于供应链管理还缺乏详细的理论指导和可以借
学位
行人重识别作为一个图像检索的子问题,旨在从视角不重叠的摄像头中检索感兴趣的行人。行人重识别技术在安防、刑侦等领域有着重要的研究和应用价值。随着公共场所中监控摄像头的不断增加,视频监控数据出现海量式增长,对这些跨摄像头的海量图像进行标注代价过于昂贵,因而有监督的行人重识别在实际应用中会受限。同时由于行人重识别数据集从不同的环境采集,不同场景下收集的数据集之间的数据分布会存在领域差异,将在一个数据集上
学位
人体动作的预测是计算机视觉和图形学领域的重要任务,广泛应用在智能安防和自动驾驶等领域。现有方法主要是基于人体的骨架和图像表示。相对于骨架和图像,三维几何数据表示人体动作更加直观和形象化。近年来,随着三维扫描和建模技术的快速发展,出现了越来越多的三维人体数据集。但目前对三维人体的预测工作相对较少,并且主要使用三角形网格的表示形式,依赖其复杂的拓扑连接性,不如三维点云那样简单和易于获取。为此,本文提出
学位
人体动作相似性度量在计算机视觉和图形学中有着广泛的应用,如安防监控、运动力学分析、信息检索等。前人的研究工作主要使用骨架和视频来表示人体动作。相对于骨架和视频,三维几何数据包含更丰富的空间信息且表示人体动作更加直观。随着激光雷达的日渐成熟,三维人体动作序列数据集逐渐增多,但对人体动作序列相似性度量研究较少,并且主要使用三角形网格来表示人体模型,较为依赖其复杂的拓扑连接性。为此,本文提出基于点云表示
学位
报纸
图像融合技术旨在对多个源图像中的互补信息进行整合,以获得包含更加全面的信息的融合图像。红外与可见光图像融合技术是图像融合领域中一个重要的研究方向。红外图像包含物体丰富的热辐射信息,即使在光线较弱的情况下,也可以捕捉到隐藏的目标。但红外图像对于场景的纹理细节信息不能给予很好地描述,不利于人类视觉的感知。可见光图像包含场景丰富的纹理信息,具有较高的清晰度,符合人类视觉的感知。利用图像融合技术将这两种图
学位
<正>Energy Daily,2023-03-10英国3月10日宣布了一项为期20年的碳捕集计划,并承诺用核能增加其能源供应,且寻求在本世纪中期实现净零经济。根据一份声明,该项目将投资200亿英镑(240亿美元),这将有助于创造5万个就业机会。财政部长Jeremy Hunt将在3月8日的预算公告中概述更多细节。Hunt在3月10日的讲话中说,此举将有助于避免自2022年主要能源生产国俄罗斯入侵乌
期刊
公路与隧道的混凝土材料由于受到环境及内部因素的影响,在混凝土表面常会出现裂缝、渗漏水等病害。严重情况下这些病害会影响到行车安全,所以及时对公路、隧道中的病害进行检测与维护显得尤为重要。这些混凝土结构表面的病害检测目前多以人工巡检为主,但该方法效率极低,主观性强。而传统的数字图像处理方法容易受到噪声的影响、泛化能力差,并且在复杂环境下检测准确率低。相比之下,基于深度学习的方法泛化能力更强,鲁棒性更强
学位