论文部分内容阅读
语义目标解析和场景分析是计算机视觉中重要的研究方向,其主要目的是对图像和视频中的目标和场景进行分析、理解,在视频监控、自动驾驶、智能交通等方面均有广泛的应用。语义目标解析涉及对行人、车辆等目标的检测、识别及分析过程。其中行人细粒度分析是很多计算机视觉应用的基础,其目的是将行人图像分割成语义部件,并识别其属性。场景分析主要包括对场景的深度估计、运动分析以及结构分析等。场景的深度估计是指从图像中得到场景的深度信息,有助于恢复场景的三维结构。场景的运动分析则主要是指从连续视频帧中得到光流信息,被用于运动目标的行为识别和异常事件的检测分类。因此,有效的行人细粒度分析、图像深度估计和光流估计算法具有重要的现实意义,本文也主要关注这三个任务。近年来,深度学习已在目标检测、人脸识别、场景标注等计算机视觉任务上取得突破,设计以任务为导向的网络模型受到学术界和工业界越来越多的关注。本文将针对行人细粒度分析、单张图像深度估计和光流估计这三个任务,分别提出不同的基于深度学习的模型。具体如下:1.对于单张图像深度估计任务,本文首先回顾了已有的相关方法,然后针对目前基于深度学习的深度估计模型在建模空间上下文关系上存在的不足,本文分别提出基于数据驱动的上下文特征学习模型和基于全变分模型的损失函数模型。前者通过数据学习和像素位置相关的上下文关系权值将邻域特征融合到深度值预测,而后者则能够有效地压制噪声并在保留边缘的同时使结果更加的平滑。最后本文将这两种模型融合,得到更有效的方法。2.在光流估计任务中,相对于传统的光流估计方法,基于深度学习的方法具有效率高、易扩展的优点。然而目前基于深度学习的方法并不多,同时已有的深度模型在大位移光流预测问题上存在不足。本文将提出一种基于多尺度的相关性学习的深度卷积网络结构,能够有效地处理大位移情况。在一些大位移光流数据集上,相对于基准算法,本文提出的框架的表现有很明显的改善。另外,由于预测的结果含有较多的噪声和较大的误差,本文提出将递归神经网络与卷积神经网络相结合对预测的结果进一步修正并得到更加精细的结果。3.对于行人细粒度分析任务,本文针对监控视频下的行人精细化识别竞赛,提出两种基于Faster R-CNN的模型框架,一种是在同一个网络模型中联合学习部件检测和部件属性分类,另一种则是先基于Faster R-CNN框架检测出部件位置,然后再训练另一个网络对部件进行属性分类。实验表明先检测再分类的分阶段方式能够减少类之间的干扰进而减少误分类现象。