论文部分内容阅读
近年来,视觉目标跟踪作为视频数据和图像序列数据的基本方式之一,同时也是计算机视觉和人工智能的重要研究方向之一,受到了越来越多的关注。视觉目标跟踪在城市交通管控、智能导航、可视化交互、智能机器人以及军事领域等诸多应用场景有着广阔的前景和需求。因此,视觉目标跟踪算法的研究,对于构建智能化视频图像数据分析的视觉系统具有非常重要的意义。视觉目标跟踪任务需要在自然真实场景的图像序列或视频中对某个指定的对象进行精确的定位,计算出目标在场景中的相对坐标。由于是在自然真实场景中,视觉目标跟踪的算法需要解决光照变化、目标遮挡、背景杂乱、摄像头剧烈移动、相似的干扰物体、目标剧烈运动、目标剧烈形变等困难和挑战。本文基于深度卷积神经网络提出了一种端到端的能够直接计算目标定位坐标的深度网络模型,并将元学习运用到提出的模型中,使得模型能够快速的学习目标的表达特征,解决目标在自然场景中面临的各自变化。本文的主要贡献为:1、基于深度卷积神经网络提出了一种全新的用于视觉模板跟踪的网络模型,能够直接计算目标在场景图片中的位置坐标,解决了目标的精确坐标定位问题。模型引入了先验框的设计,能够对目标的尺度以及宽高比进行判断,也使得最后坐标的计算更为精确。2、将元学习应用到提出的定位网络模型中,使得模型能够快速的学习跟踪目标具有区分性的特征表达,能够适应目标在自然场景中面临的各种干扰。基于元学习训练得到的网络模型在跟踪任务上能够取得更好的效果,且更具有鲁棒性。3、以深度网络模型为基础构建了完整的跟踪框架。跟踪框架包括跟踪目标的初始化、目标定位、模型更新等模块,形成了端到端的跟踪算法。算法能够解决任意视频或者图像数据的目标跟踪问题,并且使用单个图形处理器的基础上处理速度达到实时。