基于帧间连续性的在线视频多目标跟踪算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:gbe3919
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频多目标跟踪作为计算机视觉的重要任务之一,其给出的目标轨迹为视频理解、场景感知等提供了一定的技术支持,具有广阔的应用前景,如自动驾驶、智能监控、无人机、医疗影像等。早期的视频多目标跟踪算法在跟踪目标时,利用滑窗的机制,每次处理一个时间窗口内的多帧视频。这类算法在处理一帧视频时由于用到了后续若干帧的信息,无法对获取的视频帧进行及时处理,具有一定的时延,因此被称为离线多目标跟踪算法。近几年,为了满足实际应用中低时延的要求,在线多目标跟踪算法逐渐受到研究人员的重视。与离线多目标跟踪算法不同,在线多目标跟踪算法每次处理一帧视频,且不利用后续视频的信息,因此时延较低,应用范围更广。虽然在线视频多目标跟踪在各个应用场景中都取得了一定的效果,但是在实际应用时,现有算法仍然存在以下一些科学问题:现有算法在RGB域进行逐帧处理,忽略了帧间的相关性,导致跟踪速度较慢;现有算法忽略了目标之间的相互关系,仅利用目标个体的特征进行跟踪,对复杂场景中存在的相似目标、遮挡等情况鲁棒性较低;现有算法抗遮挡能力较弱,不仅需要有监督地学习目标的外观特征从而对漏检目标进行重识别,还无法估计目标漏检时的位置。本文针对上述问题做了研究,主要的研究内容及创新点如下:1.提出一种基于压缩域的在线多目标跟踪算法视频经过压缩编码后,分为关键帧和非关键帧。其中关键帧包含了该帧的所有信息,而非关键帧只利用了运动矢量和残差进行编码表示。为了提高算法的跟踪速度,该算法针对关键帧和非关键帧分别设计了不同的跟踪策略。对于关键帧,该算法设计了一个对位置敏感的外观特征模块,能有效地计算目标外观特征之间的相似度,且该模块能够和检测器一起训练,从而对外观特征模块和检测器进行联合优化。对于非关键帧,该算法设计了一个轻量的跟踪网络,该网络直接利用运动矢量和残差来预测目标的位置框。相对于关键帧,非关键帧不进行目标检测,且不考虑目标的数目变化,因此计算量相对较少。实验结果表明,该算法能够在不影响跟踪性能的情况下,大幅度提升算法的跟踪速度。2.提出一种基于图相似度模型的在线多目标跟踪算法视频中相邻帧之间目标的运动是平滑且缓慢的,因此目标之间的相互关系基本不变。为了提高跟踪算法的鲁棒性,该算法利用帧内目标的相互关系设计了图相似度模型。具体而言,该算法利用目标的外观特征和目标之间的相对位置特征来构建有向图,通过图匹配机制来计算目标之间的相似度。另外,考虑到相邻帧中图的结构具有不变性,该算法进一步利用图的拓扑结构对漏检目标的位置进行估计。与现有跟踪算法相比,该算法设计的图相似度模型不仅考虑了目标的外观特征,同时也考虑了目标之间的相互关系,因此鲁棒性较高。实验结果表明,当将该算法设计的图相似度模型应用到现有跟踪算法时,能显著提升现有跟踪算法的跟踪性能。3.提出一种基于无监督重识别和遮挡检测的在线多目标跟踪算法为了降低跟踪算法对数据标注的依赖,该算法利用相邻帧之间的相似性设计了无监督重识别学习模块。其做法是将两帧中的目标放到一个集合中,并计算集合内两两目标之间的相似度。通过对这些相似度进行帧内和帧间的约束,实现无监督训练重识别模块。考虑到外观特征只能对目标进行重识别,无法估计漏检目标的位置,该算法进一步设计了遮挡检测模块。该模块能够检测目标之间的遮挡区域。当某个目标漏检时,利用检测出来的遮挡和目标的运动信息,可以对其位置进行估计,提高抗遮挡能力。实验结果表明,该算法设计的无监督重识别模块与现有跟踪算法中的有监督重识别模块性能基本相同,且该算法设计的遮挡检测模块能大幅度提高现有跟踪算法的跟踪性能。4.设计一个在线多目标跟踪演示系统该系统首先将上述三种多目标跟踪算法进行融合,使得其在进行多目标跟踪时,具有实时、鲁棒、对数据标注依赖低的特点。另外,在具体应用时,该系统分为多摄像头监控系统和可交互的在线多目标跟踪系统。其中多摄像头监控系统实现了跨摄像头多目标跟踪,可交互的在线多目标跟踪系统允许用户灵活地对特定视频进行深入的分析和处理。
其他文献
煤炭与人们的生活息息相关,近年来煤炭消费占比急剧上升。煤矿在建设和生产过程中矿井通风系统是不可或缺的一个环节,该通风系统产生的矿井回风一年四季不间断且风量巨大,部分矿井的回风温度维持在15℃以上。近年来国家积极鼓励终端用能多能互补和综合梯级利用,如何利用矿井回风热量一直是从事煤炭能源环保领域相关学者致力于研究的热点,其中喷淋换热热回收-热泵供热技术是矿井回风余热利用的主要方式之一。针对该换热方式开
学位
托卡马克等离子体高参数运行需要优化控制等离子体电流密度剖面、电子密度剖面及温度剖面等。这些参数均有相应诊断可以给出分布,如电流密度可用电磁测量、运动斯塔克效应等;电子密度可用偏振干涉仪、汤姆逊散射等。部分积分诊断还需要结合磁面测量才可以获得精确的剖面分布。相较于基于复杂物理模型的传统等离子体剖面重建算法而言,贝叶斯推断的等离子体剖面重建以概率统计的方式决定待求剖面的条件概率,给出基于拟合诊断测量数
学位
氨基醇类化合物广泛存在于天然产物以及药物分子中,是一类非常具有合成价值的化合物。对于氨基醇类化合物的合成,最简单有效的方法之一是环氧醇或氮杂环丙烷醇的亲核开环反应。此类反应具有反应条件温和,操作简单,原料及催化剂廉价且简单易得等优点,对于有机合成具有重要意义。本文分为三个部分来介绍路易斯酸催化的环氧醇和氮杂环丙烷醇的开环反应。第一部分:硼酸催化3,4-环氧醇的区域选择性胺解反应在本部分工作中,我们
学位
现代社会信息产业蓬勃发展,人们对于计算资源、计算能力的需求永无止境,但随着芯片加工尺寸接近原子量级,量子效应显现,晶体管电路逐渐接近性能极限,基于半导体产业的经典计算机计算瓶颈愈发显现,人们迫切需要探索新的计算方式。量子计算是一种利用量子力学原理调控信息单元从而完成计算任务的新型计算模式,其借助量子体系中的态叠加和纠缠特性可以实现并行计算,在特定的计算问题上,能够突破经典信息系统的计算极限,产生指
学位
随着互联网的飞速发展,视频数据量呈指数级增长,给存储和传输造成巨大压力,因此迫切需要对视频进行更高效的压缩。视频数据中主要为时间冗余,帧间预测是去除时间冗余的核心工具。因此,如何高效地进行帧间预测是提升视频编码效率的关键。经过四十多年的发展,帧间预测技术取得显著进步,但随着研究的深入,传统帧间预测的发展也逐渐遇到性能瓶颈,这主要有两方面原因:第一,传统帧间预测模块是手工设计和优化的,预测能力有限;
学位
金刚石中的氮-空位色心(Nitrogen-vacancy Center,NV)在室温大气下有优异的相干性质,可通过激光实现量子态的初始化和读出,是量子计算和量子精密测量中非常优良的量子体系之一。作为一种量子磁传感器,NV色心具有极高的灵敏度和空间分辨率,迄今已实现了单个电子自旋和核自旋的纳米磁共振探测。在过去的十年里,基于NV色心磁测量的应用研究已经扩展到生物、医药、凝聚态等多个领域。当前对NV色
学位
人工智能是一门研究如何赋予计算机类人智能的学科,涵盖图像处理、语音处理、自然语言处理等多项技术,其中自然语言处理架起了人类与机器之间语言沟通的桥梁。为了方便人类与机器进行自然且沉浸式的语言交互,科学家们致力于构建诸如 Apple Siri、Google Now、Microsoft Cortana 和 Amazon Alexa 等智能对话系统或社交聊天机器人,这也是人工智能领域长期关注的关键任务之一
学位
行人重识别旨在从多个摄像机拍摄的数据中正确匹配感兴趣的行人,其在智能安防、智慧交通以及智能警务等领域有着广泛应用。近些年随着深度学习的快速发展以及计算设备的性能提升,行人重识别研究取得了瞩目的进展。然而,行人重识别面对的监控场景是复杂多样的,遮挡、模糊、背景和衣着变化等因素会给现有方法带来很大的挑战。为了更好地应对复杂环境,提升行人重识别系统的鲁棒性和区分力,本文从多线索信息融合的角度出发,在时空
学位
固体壁面上的接触线运动和气—液界面演化在自然界及日常生活中广泛存在,在工业生产中有着重要的应用。移动接触线的奇异性、界面的多尺度性和几何奇异性结构是界面动力学研究中的巨大难题。考虑接触线模型的润滑理论,是研究界面问题的重要理论方法,但在处理复杂界面时仍存在挑战。本文通过理论分析和数值计算相结合的方法,基于长波近似,在多个气—液界面问题中推广了润滑理论,并研究了相应的界面特征和接触线行为,主要工作内
学位
随着互联网应用的普及,当今时代的信息量呈爆炸式增长。作为一种能在海量数据中获取知识和处理信息的技术,深度学习因其优秀的性能被广泛应用于数据挖掘、计算机视觉、自然语言处理等领域。作为深度学习技术实现的重要载体,深度学习模型本身具有巨大的应用潜力与商业价值,也因此面临着盗版和篡改等一系列安全问题。为了应对这些潜在的威胁,大量深度学习模型的保护策略应运而生,其中模型水印技术作为一种主动的保护方法,通过将
学位