视觉注意力检测与显著物体分割的研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:isc70279
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类视觉系统具备从视野中迅速选取关键区域的惊人能力,这一选择性过程能够使人类对复杂场景进行实时解读。物体分割,作为计算机视觉领域的一个基本问题,连接了底层视觉处理和高级视觉理解,尽管学界已经就这一问题进行了大量的研究,但是针对物体分割,尤其是无监督物体分割的潜在机理却较少触及。本文对视觉注意力机制进行了深入研究,并探讨了将视觉显著性作为先验性信息来引导物体分割。具体地,本文提出了一系列数据驱动的视觉显著性检测和显著性引导的物体分割算法,主要包括:1.提出了基于深度神经网络的ASNet模型,该模型通过视觉注意力先验来检测视觉显著物体。ASNet模型将视觉注意力作为对整个场景的高层次理解,通过较高层的神经网络层进行学习,显著物体检测任务则被视为更细粒度的、物体级别的显著性检测,由视觉注意力提供自顶向下的引导。ASNet模型基于堆栈式卷积长短期记忆神经网络,该网络特有的循环结构能够迭代地优化显著性检测结果。同时,提出了多种损失函数,用于进一步提高ASNet模型的性能。大量的实验结果证明,ASNet模型能够在视觉注意力的引导下,生成精确的物体显著性检测结果。该工作为视觉注意力机制提供了更深层次的解读,揭示了显著物体检测和人眼关注点检测二者之间紧密的关联性。2.提出了基于测地距的时空显著物体检测模型,为视频物体分割提供了可靠并且在时空域上连续的显著性先验。通过计算时空边缘特征、表观以及运动信息,建立intra-frame图模型和inter-frame图模型,进行显著性估计。提出了物体骨架提取算法,用于对显著性检测结果进一步优化。同时提出了新的视频分割能量方程,该方程由三个一阶能量项(分别基于时空显著性、全局表观模型以及动态位置模型),以及两个二阶能量项(分别考虑时间域与空间域上标号连续性)构成,通过对该方程的最小化来求解视频分割问题。在多个著名公共数据集上的实验结果表明,该模型在分割精确度和计算效率上都要优于其它经典的视频分割算法。3.提出了基于全卷积神经网络的视频显著物体检测模型,并解决了两个关键问题:(1)在缺乏充分训练样本的条件下,对深度学习模型进行训练;以及(2)建立快速且准确的视频显著性模型。该模型包含了两个模块,分别用于学习空间域和时间域上的显著性信息。其中,动态显著性检测模块,显式地利用了静态显著性检测模块的静态显著性估计,直接生成时空显著性检测结果,并且避免了耗时的光流计算。同时提出了一个重要的数据扩充技术,该技术能够利用已有的标定好的图像数据集,合成出大量的视频数据,从而使深度视频显著物体检测模型能够学习到丰富的显著性信息,并避免了在原来少量视频样本上过拟合的风险。通过利用合成的视频数据(15万个视频序列)和真实的视频数据,该模型能够成功地学习到时间域和空间域的显著性信息,得到更准确的显著性检测结果并具有更快的检测速度。4.为视频显著性检测作出了两方面的贡献。首先,为动态场景、自由观看模式下的人眼关注点检测任务引入了一个新的数据集,这一大型数据集是学界长期缺乏的。该数据集,即DHF1K,包含了1千个高质量的、精心收集的视频序列,以及17个观测者的眼动数据。这些视频涵盖了广泛的场景类别、运动模式、物体实例以及较高的背景复杂度。现有的视频眼动数据集往往缺乏多样性和对一般动态场景的概括性。与之相比,DHF1K数据集在数据的规模、多样性和困难程度上都有了很大的提高,我们期望该数据集的提出能够更好地推动动态视觉显著性检测的研究。其次,提出了一个重要的动态显著性检测模型,该模型将卷积网络-卷积长短期记忆网络的架构与注意力机制相结合,可以通过端到端的方式学习。其中,注意力模块通过显式的方式学习静态显著性信息,使卷积长短期记忆网络更好地关注于学习更复杂多变的动态显著性信息。同时,这一模块也能够充分利用现有的大规模静态眼动数据,降低了过拟合的风险,并极大的提升了整个模型的训练效率和检测性能。通过与其它代表性的显著性检测模型在三个大规模眼动数据集上(DHF1K、Hollywood2、UCF sports)的比较实验,充分检验了所提出模型的性能。在超过1200个测试视频以及40余万视频帧上的实验表明,所提出模型能够取得比其它算法更好的性能并具有极高的处理速度(在单个GPU上达到40帧/秒)。
其他文献
机器人集合了机械、电子、信息、控制和计算机等多种学科技术,是目前学术研究和工程应用都非常活跃的领域之一。经过几十年的发展,机器人已经从一个科幻概念慢慢地走向商业化
技术壁垒是在当前全球贸易摩擦不断蔓延和升级背景下拓展出的新型非关税壁垒。经济全球化背景下全球经济竞争方式和手段日趋多元化,科技竞争成为全球竞争的核心,创新驱动发展
信息物理系统(Cyber-Physical Systems,CPS)将信息系统和物理系统通过各种大规模异构网络连接起来,实现对物理环境的实时和准确的感知与控制,实现人与人之间、人与物之间的资
随着成像技术的发展,图像增强技术成为很多领域不可或缺的处理手段,如科学研究、军事应用、森林农业的估产减灾、目标跟踪、石油勘探等。由于成像设备在成像过程中或多或少的
隐通道是指利用授权的公开信道作为秘密信息载体介质的一种隐蔽通信方法。网络隐通道成为在公开网络流量中隐蔽地传输秘密信息的一种有效手段,分为时间隐通道和存储隐通道两
为解决城市道路网络中日益激烈的交通供需不平衡问题,世界各国均大力推动关于车-路通信与协同控制的新一代智能交通系统的研究。智能网联汽车加强与外部实时信息交互,能实现
近年来,随着移动互联设备数量的爆炸性增长,全球通信产业对无线频谱的需求日益增加。由于频谱资源的稀缺性,未来的通信系统将要探索与其他电子设备共享同一频段的可行性。这
深空探测、军事侦察、遥感航拍等成像应用领域需要解决的主要问题之一是如何将多个成像传感器具有的一定重叠区域的高分辨率图像快速敏捷地合成一幅宽视角的全场景图像。宽视
随着社会经济的快速发展和城市化进程的不断推进,突发事件发生的频率和造成的危害不断增强。在应对各类突发事件的过程中,应急医学救援已成为维持社会经济稳定发展和保护公民
概念漂移问题是指学习模型试图预测的?标变量的统计特性会随着时间的推移以不可预见的?式发?变化。在?前?数据时代背景下,各种不同的信息系统、预警系统以及决策?持系统每时