论文部分内容阅读
显著性目标检测旨在识别出最重要和最让人眼感兴趣的区域,作为计算机视觉领域的一个热门方向,目前主要应用于目标分割、动作识别、目标跟踪等任务中。人类视觉的注意力机制是指人能够在复杂的场景中分配更多的注意力给显著性区域,这对显著性目标检测提供了一种可行方案。模仿人类视觉的注意力机制,本文针对目前视频显著性检测方法在处理特征时的无差异对待问题,采用基于空间域的注意力机制来提高对显著性目标的注意程度,并完成了基于空间域注意力机制的视频显著性检测算法设计。同时针对在视频特征提取中存在的时间、空间信息不一致性的问题,本文设计了嵌入注意力机制的conv LSTM结构,使网络能够提取时空一致性信息的同时极大限度的保持特征的空间结构信息,并最终完成了基于注意力机制的视频显著性目标检测模型设计。针对视频显著性检测存在的问题,本文主要的研究内容如下:(1)针对特征之间的差异性和对显著性目标预测的贡献不同,引入了视觉注意力机制对特征区分看待,并设计了一种基于空间域注意力机制的视频显著性检测算法。该算法核心是将基于通道、空间注意的注意力机制应用到视频显著性检测中,让网络更加关注显著性区域部分。该算法考虑到网络不同层次的特征存在差异性:网络的高层提取到更多的语义特征,而网络的浅层更加关注于细节信息,在网络高层加入基于通道注意力机制的单元,提高网络定位到显著性目标区域的能力;在网络浅层加入基于空间注意力机制的单元,提高网络抑制背景噪声的能力;设计高层特征指导浅层特征学习的方式来使网络更好的捕捉显著性目标。并最后进行消融实验通过F-measure值/F值、MAE值等指标分析验证算法创新点的有效性。(2)针对视频显著性检测如何建模时间域上信息的问题,本文为了进行更高效的时空特征预测的同时保证提取到时空一致性的特征,设计了一种基于注意力的时空一致性视频显著性检测算法。该算法在网络的高层设计了嵌入注意力机制的conv LSTM模块,将基于通道、空间的注意力机制嵌入至conv LSTM结构中,来获取更准确地时空一致性信息;采用双层的conv LSTM网络单元建模视频帧序列的前后帧之间的相关性。并最后通过消融实验进行了算法创新点有效性的验证,同时通过改变一次性同时处理的视频帧序列个数来验证帧个数对网络性能的影响。(3)本文通过充分的实验来验证本文所提出的算法的先进性。本文对比了视频显著性检测领域主流的11个基于传统方法和6个基于深度学习的方法的算法,并在DAVIS、FBMS、MCL等6个公认的视频数据集上进行了实验验证。从定性角度上可以看出,与其他主流算法相比,本文的算法具有定位准确,检测目标边缘清晰的优点;从定量指标中可以看出,本文的算法在公认的评估指标F值、MAE值等指标均取得了较好的结果,本文采用神经网络端对端的学习方式,不需要任何的预处理或后处理手段,最终达到了20fps的处理速度。