论文部分内容阅读
人类视觉系统具备从视野中迅速选取关键区域的惊人能力,这一选择性过程能够使人类对复杂场景进行实时解读。物体分割,作为计算机视觉领域的一个基本问题,连接了底层视觉处理和高级视觉理解,尽管学界已经就这一问题进行了大量的研究,但是针对物体分割,尤其是无监督物体分割的潜在机理却较少触及。本文对视觉注意力机制进行了深入研究,并探讨了将视觉显著性作为先验性信息来引导物体分割。具体地,本文提出了一系列数据驱动的视觉显著性检测和显著性引导的物体分割算法,主要包括:1.提出了基于深度神经网络的ASNet模型,该模型通过视觉注意力先验来检测视觉显著物体。ASNet模型将视觉注意力作为对整个场景的高层次理解,通过较高层的神经网络层进行学习,显著物体检测任务则被视为更细粒度的、物体级别的显著性检测,由视觉注意力提供自顶向下的引导。ASNet模型基于堆栈式卷积长短期记忆神经网络,该网络特有的循环结构能够迭代地优化显著性检测结果。同时,提出了多种损失函数,用于进一步提高ASNet模型的性能。大量的实验结果证明,ASNet模型能够在视觉注意力的引导下,生成精确的物体显著性检测结果。该工作为视觉注意力机制提供了更深层次的解读,揭示了显著物体检测和人眼关注点检测二者之间紧密的关联性。2.提出了基于测地距的时空显著物体检测模型,为视频物体分割提供了可靠并且在时空域上连续的显著性先验。通过计算时空边缘特征、表观以及运动信息,建立intra-frame图模型和inter-frame图模型,进行显著性估计。提出了物体骨架提取算法,用于对显著性检测结果进一步优化。同时提出了新的视频分割能量方程,该方程由三个一阶能量项(分别基于时空显著性、全局表观模型以及动态位置模型),以及两个二阶能量项(分别考虑时间域与空间域上标号连续性)构成,通过对该方程的最小化来求解视频分割问题。在多个著名公共数据集上的实验结果表明,该模型在分割精确度和计算效率上都要优于其它经典的视频分割算法。3.提出了基于全卷积神经网络的视频显著物体检测模型,并解决了两个关键问题:(1)在缺乏充分训练样本的条件下,对深度学习模型进行训练;以及(2)建立快速且准确的视频显著性模型。该模型包含了两个模块,分别用于学习空间域和时间域上的显著性信息。其中,动态显著性检测模块,显式地利用了静态显著性检测模块的静态显著性估计,直接生成时空显著性检测结果,并且避免了耗时的光流计算。同时提出了一个重要的数据扩充技术,该技术能够利用已有的标定好的图像数据集,合成出大量的视频数据,从而使深度视频显著物体检测模型能够学习到丰富的显著性信息,并避免了在原来少量视频样本上过拟合的风险。通过利用合成的视频数据(15万个视频序列)和真实的视频数据,该模型能够成功地学习到时间域和空间域的显著性信息,得到更准确的显著性检测结果并具有更快的检测速度。4.为视频显著性检测作出了两方面的贡献。首先,为动态场景、自由观看模式下的人眼关注点检测任务引入了一个新的数据集,这一大型数据集是学界长期缺乏的。该数据集,即DHF1K,包含了1千个高质量的、精心收集的视频序列,以及17个观测者的眼动数据。这些视频涵盖了广泛的场景类别、运动模式、物体实例以及较高的背景复杂度。现有的视频眼动数据集往往缺乏多样性和对一般动态场景的概括性。与之相比,DHF1K数据集在数据的规模、多样性和困难程度上都有了很大的提高,我们期望该数据集的提出能够更好地推动动态视觉显著性检测的研究。其次,提出了一个重要的动态显著性检测模型,该模型将卷积网络-卷积长短期记忆网络的架构与注意力机制相结合,可以通过端到端的方式学习。其中,注意力模块通过显式的方式学习静态显著性信息,使卷积长短期记忆网络更好地关注于学习更复杂多变的动态显著性信息。同时,这一模块也能够充分利用现有的大规模静态眼动数据,降低了过拟合的风险,并极大的提升了整个模型的训练效率和检测性能。通过与其它代表性的显著性检测模型在三个大规模眼动数据集上(DHF1K、Hollywood2、UCF sports)的比较实验,充分检验了所提出模型的性能。在超过1200个测试视频以及40余万视频帧上的实验表明,所提出模型能够取得比其它算法更好的性能并具有极高的处理速度(在单个GPU上达到40帧/秒)。