论文部分内容阅读
半监督视频目标分割任务是视频目标分割的一项子任务,它指的是在视频第一帧或者前几帧给出对目标的标注,在后续视频帧序列中分割指定的目标。半监督视频目标分割目前的应用很广泛,比如在视频编码领域、视频编辑领域、动作识别领域以及自动驾驶领域都有着重要的作用,与此同时,半监督视频目标分割任务也有许多难点,比如背景复杂、目标的快速运动、目标的外观变化、目标被遮挡或者消失等。因此,对半监督视频分割进行研究,设计一个快速、稳定的半监督视频分割算法具有重要的理论意义和实际应用价值。本文主要研究基于深度学习的半监督视频分割方法,主要工作内容如下:(1)设计了一个新的半监督视频分割模型。主干网络采用的是Res2Net,特征流动方式采用的是FPN,核心是全局相关模块。全局相关模块的操作是将当前帧的像素级特征与其它帧的像素级特征进行内积运算从而获得它们之间的相似度。为了能够使模型了解需要分割的目标,我们将带有真值的第一帧和当前帧送入全局相关模块,为了可以利用视频中间的分割结果,我们还将当前帧的前十帧也送入全局相关模块。通过在Davis2016上的实验我们验证了这些操作对视频分割性能的提升。(2)提出新的局部相关模块用来传播视频中的时序特征。局部相关模块与全局相关模块有点类似,不同之处在于它对像素匹配的范围做了限制。因为目标所占的像素个数不同,所以通过全局相关模块或者局部相关模块提取得到的相似特征的维度也是不固定的,为了能够得到固定维度的相似特征,我们在全局相关模块和局部相关模块之后提出了一种特征选择的方法。通过实验四种特征选择方法我们验证了这种特征选择方法的效果,同时通过切削实验验证了局部相关模块的有效性以及它和全局相关模块的互补性,最后和其它半监督视频分割算法的对比实验验证了我们所设计的模型对完成单目标半监督视频分割任务的能力。(3)将基于单目标的半监督视频分割模型扩展为多目标视频分割模型。多目标视频分割与单目标不同的地方在于每个视频需要分割的目标不再仅限于一个,我们将视频中的多个目标分离开来,然后分别使用单目标视频分割模型进行分割,最后将所有分割出来的目标重组为最终结果。对于多目标重叠区域,我们在Davis2017数据集上实验了四种多目标时序传播方法的效果,最后通过和其它多目标视频分割模型相对比验证了我们所设计的多目标视频分割算法的有效性。