面向真实场景的人物识别与分析

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:bonbonty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着安防需求的不断扩大以及互联网技术的飞速发展,由监控相机、影视媒体、社交网络等途径产生的图像和视频数据呈现出爆发式的增长,给面向图像和视频数据的处理与分析带来了巨大的挑战。“人”是图像、视频处理与分析的核心对象,近年来,人脸识别、行人重识别、人物搜索、动作识别等以“人”为中心的任务得到了广泛的关注和研究。已有的研究工作在理想的实验场景中已经取得了令人瞩目的进展,然而大部分相关技术还远未达到可以实用的水准。因此,如何在真实场景下对人物进行有效的识别与分析对促进相关应用的落地和普及至关重要,具有重要的理论价值和现实意义。本文立足于提升图像和视频数据中人物处理与分析的智能化程度,对真实场景下人物身份与动作的识别与分析进行了探索,其主要贡献和创新点包含以下四个方面:(1)针对现有行人重识别数据集中图像分辨率低、时空信息丢失、无完整视频帧等问题,本文基于真实场景下的4K视频监控网络收集并标注了一个大规模行人视频数据集(这个数据集被命名为Campus4K)。不同于传统的基于图像或视频的行人重识别数据集,Campus4K不仅提供了更清晰的人物视频,还保留了原始的完整视频帧及其对应的时间信息,并记录了不同摄像机视野在真实世界的空间区域分布。Campus4K可以提供视频数据、时空信息等多样化内容,十分接近于真实的应用场景,也是本文后续研究的数据基础之一。(2)针对真实场景下训练数据匮乏导致的性能退化问题,本文提出了一种基于原始视频和时空约束的无监督行人重识别方法。传统的无监督行人重识别基于根据边界框裁剪得到的行人图像进行学习,虽然去除了身份标签,但其数据分布与真实场景仍然有一定的差异。基于拥有完整视频帧的Campus4K数据集,本文使用检测跟踪算法自动生成用于模型训练的行人轨迹数据,并利用数据集中的时空信息从含有大量噪声的数据中筛选出了可靠的正样本数据,大幅提升了训练数据的质量以及最终无监督行人重识别的性能表现。基于原始视频的无监督学习框架可以充分利用监控网络拍摄的源源不断的视频数据,在真实场景下有着更广阔的应用前景。(3)针对真实世界中多样的检索需求以及复杂的应用场景,本文基于人脸和躯体信息,提出了一种基于多线索联合查询的肖像搜索方法以及一种基于多线索信息融合的行人重识别方法。肖像搜索可视为行人重识别任务的一种特例,旨在通过证件照或画像在人脸可能不可见的大规模数据库中对该人物进行检索,十分贴近真实场景的应用需求。本文使用肖像中的人脸信息对数据库信息进行迭代探索,并结合躯体外观、人物身份互斥性等信息提升了肖像搜索的整体性能;此外,由于数据集清晰度的限制,在行人重识别任务中直接引入质量相对较差的人脸信息对算法性能提升幅度不明显,甚至会带来明显的性能下降。本文从数据库中人物的近邻关系出发,基于图模型和图卷积网络,对人脸和躯体多线索上下文信息进行融合。在基于计算机图形学技术渲染的高清数据集以及本文提出的Campus4K上的实验表明,随着清晰度提升,本文提出的融合模型能从较弱的人脸线索中捕捉辅助行人重识别的有用信息,可有效提升行人重识别模型的性能表现。(4)上述内容主要关注于人物身份的识别与分析,只能被动地在事件发生后对人物进行查询,本文最后关注于人物的时空动作检测,提出了一种基于局部上下文交叉注意力的动作检测方法,主动对视频中人物的动作进行识别与分析。人物动作的识别与检测离不开对周围环境的理解,本文使用基于Transformer结构的交叉注意力网络对人物与局部上下文区域进行关系建模,相较于全局关系建模方式,在减少计算量的同时提高了动作识别与检测的精度。实验表明,本文提出的动作检测模型对于人物目标小、运动速度快、背景杂乱等真实场景下的常见问题有着很好的鲁棒性。综上所述,本文关注于人物身份与动作的识别与分析,重点研究了如何实现与完善自动化和智能化的图像、视频处理技术。同时,本文针对真实场景下面临的数据标注困难、检索需求多样、应用环境复杂等问题,提出了新颖的解决思路,有助于推动相关技术在实际应用场景中的落地与推广。
其他文献
随着互联网的飞速发展,视频数据量呈指数级增长,给存储和传输造成巨大压力,因此迫切需要对视频进行更高效的压缩。视频数据中主要为时间冗余,帧间预测是去除时间冗余的核心工具。因此,如何高效地进行帧间预测是提升视频编码效率的关键。经过四十多年的发展,帧间预测技术取得显著进步,但随着研究的深入,传统帧间预测的发展也逐渐遇到性能瓶颈,这主要有两方面原因:第一,传统帧间预测模块是手工设计和优化的,预测能力有限;
学位
金刚石中的氮-空位色心(Nitrogen-vacancy Center,NV)在室温大气下有优异的相干性质,可通过激光实现量子态的初始化和读出,是量子计算和量子精密测量中非常优良的量子体系之一。作为一种量子磁传感器,NV色心具有极高的灵敏度和空间分辨率,迄今已实现了单个电子自旋和核自旋的纳米磁共振探测。在过去的十年里,基于NV色心磁测量的应用研究已经扩展到生物、医药、凝聚态等多个领域。当前对NV色
学位
人工智能是一门研究如何赋予计算机类人智能的学科,涵盖图像处理、语音处理、自然语言处理等多项技术,其中自然语言处理架起了人类与机器之间语言沟通的桥梁。为了方便人类与机器进行自然且沉浸式的语言交互,科学家们致力于构建诸如 Apple Siri、Google Now、Microsoft Cortana 和 Amazon Alexa 等智能对话系统或社交聊天机器人,这也是人工智能领域长期关注的关键任务之一
学位
行人重识别旨在从多个摄像机拍摄的数据中正确匹配感兴趣的行人,其在智能安防、智慧交通以及智能警务等领域有着广泛应用。近些年随着深度学习的快速发展以及计算设备的性能提升,行人重识别研究取得了瞩目的进展。然而,行人重识别面对的监控场景是复杂多样的,遮挡、模糊、背景和衣着变化等因素会给现有方法带来很大的挑战。为了更好地应对复杂环境,提升行人重识别系统的鲁棒性和区分力,本文从多线索信息融合的角度出发,在时空
学位
固体壁面上的接触线运动和气—液界面演化在自然界及日常生活中广泛存在,在工业生产中有着重要的应用。移动接触线的奇异性、界面的多尺度性和几何奇异性结构是界面动力学研究中的巨大难题。考虑接触线模型的润滑理论,是研究界面问题的重要理论方法,但在处理复杂界面时仍存在挑战。本文通过理论分析和数值计算相结合的方法,基于长波近似,在多个气—液界面问题中推广了润滑理论,并研究了相应的界面特征和接触线行为,主要工作内
学位
随着互联网应用的普及,当今时代的信息量呈爆炸式增长。作为一种能在海量数据中获取知识和处理信息的技术,深度学习因其优秀的性能被广泛应用于数据挖掘、计算机视觉、自然语言处理等领域。作为深度学习技术实现的重要载体,深度学习模型本身具有巨大的应用潜力与商业价值,也因此面临着盗版和篡改等一系列安全问题。为了应对这些潜在的威胁,大量深度学习模型的保护策略应运而生,其中模型水印技术作为一种主动的保护方法,通过将
学位
视频多目标跟踪作为计算机视觉的重要任务之一,其给出的目标轨迹为视频理解、场景感知等提供了一定的技术支持,具有广阔的应用前景,如自动驾驶、智能监控、无人机、医疗影像等。早期的视频多目标跟踪算法在跟踪目标时,利用滑窗的机制,每次处理一个时间窗口内的多帧视频。这类算法在处理一帧视频时由于用到了后续若干帧的信息,无法对获取的视频帧进行及时处理,具有一定的时延,因此被称为离线多目标跟踪算法。近几年,为了满足
学位
基于内容的图像检索是计算机视觉中的基础研究方向,其旨在从大规模图像库中找出与查询图像语义相关的图像,并按相关性降序排序后返回给用户。图像检索在商品检索、地标检索、行人检索等领域有着广泛的应用。视觉重排序是基于内容的图像检索系统中重要的后处理步骤。当初次检索的结果不尽如人意时,可以使用视觉检索重排序技术对初次检索的结果进行优化,从而进一步提升图像检索的精确度。近年来,视觉检索重排序技术取得重大进展,
学位
人口老龄化是全球社会共同面临的重大问题,所以有越来越多的研究关注倒衰老以及衰老相关的神经退行性疾病中(如阿尔兹海默症,Alzheimer’s disease,AD)的认知衰退的机制。多模态磁共振成像(Magnetic Resonance Imaging,MRI)可以被用于从多方面研究神经退行性疾病导致的偏离正常衰老的神经系统及功能的改变。例如,使用结构MRI的大脑衰老预测模型提示,在后来发展为AD
学位
NLRP3炎症小体能够感知多种病原分子和危险信号,且其活化能够产生并分泌IL1β和IL-18等炎性细胞因子,因而其在炎症发生过程中发挥关键作用。近年来,NLRP3炎症小体被报道与多种人类疾病密切相关,比如自身炎症性疾病、神经系统疾病、代谢性疾病等。因此,NLRP3也被认为是这些疾病的重要干预靶点。目前,相关研究已经报道一些NLRP3炎症小体的抑制剂,但是尚无靶向NLRP3的临床药物。因此,进一步筛
学位