论文部分内容阅读
视觉目标跟踪,旨在连续的视频帧或在线视频中,计算出选定目标在每一帧中的位置信息,是计算机视觉研究领域中的一个基础且重要的研究课题,其在诸如目标制导、自动驾驶、行为识别等应用场景下有着广泛的应用价值。可见光单模态目标跟踪作为视觉目标跟踪的首要研究问题,近年来,获得了丰富的研究成果。人们不仅提出了多种基于不同理论框架的目标跟踪算法,这些算法在时间和精度两个方面提升目标跟踪算法的性能;还建立了包含多种复杂条件的可见光目标跟踪数据集,用于评估这些不同目标跟踪算法的性能。这些工作不仅奠定了可见光单模态目标跟踪算法的理论基础,而且在实际的工程项目中也有着广泛的应用。虽然目前的可见光单模态目标跟踪算法,在很多复杂的跟踪场景下仍然有着良好的跟踪性能,但是在某些极端条件下,如低照度或零照度条件,现有的基于可见光的单模态目标跟踪算法仍会失效。针对这一问题,研究人员通过引入热红外图像或颜色深度图像信息,来弥补可见光单模态视频数据的不足。由于可见光视频和热红外视频良好的互补特性,近年来,基于热红外视频和可见光视频的多模态目标跟踪算法的研究,得到了广泛的关注。本文针对基于热红外和可见光视频的多模态目标跟踪算法进行了相关的研究,其主要贡献有:(1)提出了一种基于模态可靠性相关度的多模态目标跟踪算法。由于热红外和可见光不同的成像机制,不同成像机制下获取的目标信息具有不同的权重,为了评估不同模态的权重,使得传统的单模态算法能够始终在较好的模态下进行目标跟踪,本文提出了一种模态可靠性定义准则,并在此准则基础上,设计实现了一种实时的多模态目标跟踪算法,该算法能够自适应的利用热红外和可见光信息实现目标的持续稳健跟踪,在跟踪过程中,通过相关的模型更新算法,使得跟踪模型能够适应目标外观变化,降低噪声的影响。(2)提出了一种融合局部和全局信息的多模态协同目标跟踪算法。在多模态目标跟踪过程中,不同的视频模态有着不同的权重,进一步,跟踪样本的不同区域对于跟踪结果而言也有着不同的贡献。考虑到不同模态的权重以及跟踪样本不同分块区域的权重,本文提出了一种融合多模态数据的协同目标跟踪算法。该模型通过联合的稀疏表示学习来充分使用跟踪目标样本和样本内部图像块之间的内在联系。同时,模型在处理样本的内部图像块时,保持了其空间结构布局信息;并且考虑到跟踪目标样本和其局部图像块对跟踪结果的不同贡献值,进行了联合的加权处理;最后,考虑了多模态不同模态的权重,并且将该权重和整个目标跟踪稀疏外观表示模型联合求解。(3)构建了一个包含多种复杂条件的多模态目标跟踪数据集。由于当前公开的多模态数据集,如OSU、AIC等,其场景单一、视频序列较少,难以作为评估多模态目标跟踪来使用。为了能够建立一个统一的多模态跟踪目标跟踪数据集,以评估各种多模态目标跟踪算法,本文构建了一个包括低照度、背景杂乱等复杂条件的多模态视频数据集,这些视频包含了低照度条件下的单人行进,两人交叉遮挡,单个刚体自行车行进等多种挑战性因素。原始视频数据,经过初步整理、场景对齐、跟踪目标位置人工标注之后,形成了一个较为完备的多模态目标跟踪评测数据集。