论文部分内容阅读
多目标检测跟踪是机器视觉的核心问题之一,也是视频理解、行为识别、异常事件检测等诸多应用的基础,具体包括检测、特征建模和匹配关联。近些年来,随着深度学习的发展,多目标检测跟踪领域内涌现出大量优秀方法,但仍存在诸多问题,本文针对以下三个问题进行研究,具体包括:1)在特殊场景中受限硬件条件下,较难实现快速的目标检测跟踪;2)多目标跟踪精度提升及特征建模与匹配关联的分离,导致较难准确地构建目标特征模型,并对多目标进行关联匹配;3)多目标检测与多目标跟踪的分离,导致跟踪检测速度低效和问题的复杂化。本文从三个方面分别对多目标检测跟踪问题展开研究,具体包括以下几方面:1)提出一种特殊场景下的行人检测跟踪算法,并建立了公交人数统计数据集(PCDS)。针对特殊场景(公交场景),基于RGB-D相机提出了一种行人检测与跟踪算法,用于公交人数统计。该算法具体包括:RGB-D相机的自动标定方法、基于深度图的行人检测方法以及行人跟踪与轨迹分析方法。实验结果表明,本文所提出自动标定方法具有很强的鲁棒性,并且能满足应用精度的要求,本文所提出的行人人头检测方法,能够满足实时性需求,本文所提出的行人跟踪与轨迹分析方法,在受限的硬件条件下,可以实时精确地对公交内环境人数计数。2)提出了一种特征建模与匹配关联一体化深度学习网络。针对特征建模与匹配关联的分离问题,本文设计出一个端到端网络(深度关联网络)用于构建多目标的特征模型和多目标的匹配关联。此外,本文还提出了一种基于深度关联网络的跟踪方法,实验结果证明,本文所提出的深度关联网络跟踪方法,可以准确跟踪目标,并且能够解决多数由于目标遮挡导致的目标丢失问题,该方法在多目标挑战MOT15、MOT17和UADETRAC的评价指标下取得较高排名。3)提出了一个基于检测跟踪一体化网络的跟踪器,并建立了一个大规模跟踪数据集(AMOTD)。针对多目标检测与多目标跟踪分离问题,本文提出了一种检测跟踪一体网络(SSDTN)。该网络可估计多幅视频帧中所有目标的运动方程、分类和可见性。基于该网络,本文提出了一种基于检测跟踪一体网络的跟踪方法。此外,本文公布了一个大规模多目标跟踪数据集,该数据集是目前UA-DETRAC数据集的100多倍。实验证明,该网络可以精确地估计目标的运动方程,同时,该跟踪器检测跟踪速度可达到116fps。上述研究,解决了前文所述的多目标检测跟踪相关问题。本文针对特殊场景下,提出了基于深度相机的检测跟踪算法,结合轨迹分析算法,解决了公交内环境行人计数问题,使得行人计数精度可达85%以上,运行速度可达45fps;本文为了提高多目标跟踪精度,提出了一种深度关联网络,基于该网络,设计了DAN跟踪器,该跟踪器在MOT17、UA-DETRAC比赛中皆取得较高成绩,速度可达到6fps以上;本文为了提升多目标检测跟踪速度,提出了检测跟踪一体化网络,基于该网络,进一步设计了检测跟踪一体化跟踪器,该跟踪器在保证跟踪精度的前提下,其速度可达到116fps。此外,本文还公布了两个大规模数据集,人数统计数据集和AMOTD,可分别用于人数统计领域和多目标跟踪领域。以上工作,对于多目标检测跟踪问题的研究具有重要意义。