论文部分内容阅读
目标跟踪是计算机视觉的基本问题之一,目标跟踪在智能监控系统、自主驾驶,安全和监控,视频通信和压缩,交通控制,医学诊断和视频编辑等众多实时视觉应用中起着至关重要的作用。很多的研究团队提出了各式各样的经典算法,并不断对其进行改进,近年来,基于相关滤波的目标跟踪算法以其惊人的速度和良好的精确度引起广大学者的注意,并不断取得亮眼成果。然而目标跟踪是一项非常极具挑战的任务,对于处于运动中的目标来说,其实际运动的场景是非常复杂的,比如光照的变化,背景的杂乱,又或者运动目标本身的外观发生形变,比如旋转,被遮挡等。在实际研究过程中,如何设计一个对各种情况均具有鲁棒性的算法,是我们需要关注的问题。针对这些问题,本文提出了融合多种特征和结合深度特征的相关滤波算法,来改进传统的相关滤波跟踪算法的性能,本文的主要工作和创新点如下:HOG特征是在图片局部cell上进行计算的,图像几何和光学的变化对于它来说,都具有很好的不变形,但是HOG特征很难处理遮挡问题,人体姿势动作幅度过大或物体方向改变也会不易检测,而且对噪声非常敏感。CN特征几乎不依赖于图像本身的大小,方向和观察角度,并且不受旋转和位置变化的影响,因此它具有高鲁棒性,但不能对目标的局部特征进行很好的描述。LIOP特征是在灰度图片上进行描述的,基于关键点检测进行目标外观描述,它对图像的旋转、压缩、运动模糊、尺度变化等具有很好的鲁棒性。因此我们将31通道的HOG特征,11通道的颜色特征和1通道的LIOP特征进行多通道融合,形成43通道的特征,针对尺度变化问题,首先在得到准确度最高的位置后,以该点为中心,建立一个尺度池,用另一个尺度相关滤波器来进行最佳尺度的选择,另外针对遮挡等问题引起的模型污染问题,设计了一种合理的模型更新方法。深度学习对于许多视觉领域的任务是十分有效的,这取决于其强大的表征能力,如何将其这种其他方法无法取代的强大表征力应用于目标跟踪领域是我们关注的重点。然而目标跟踪仅给定第一帧中目标的初始状态,通常训练样本及其稀缺,并且其要求实时性,直接将深度学习框架应用于该领域是不现实的,而已经训练好的强大的深度学习网络结构很多,因此本文将VGG-19网络结构用来提取目标特征。同时为了更好利用好各层的特征,将每一层深度特征作为一个决策者,利用相对误差和空间矢量的余弦定理为每一个决策者分配信任值,设计了一种响应图自适应融合方法。通过在OTB数据集上对提出的算法与其他先进的算法进行定量分析,实验结果表明本文所提出的算法当目标在快速移动,形变,遮挡,出视线等情况发生时,具有很好的鲁棒性和准确度。