论文部分内容阅读
光流是目前运动图像分析的重要方法和工具,现已发展成为计算机视觉领域的一个重要分支。光流所表示的是空间运动物体,在观察参考平面上像素的运动状态。光流预测算法是利用图像序列中相邻两帧之间的相关性和对应关系,来找到对应像素在时间和空间上的变化,以此计算相邻两帧间目标对象运动状态的方法。光流表达了图像像素的变化,由于它包含了目标运动的信息,因此可被观察者用来确定目标的运动情况。研究光流场的目的就是为了从图像序列中近似得到不能直接得到的运动场。因此对光流信息的研究在图像处理领域有着重要的理论价值。基于变分能量模型的预测方法和基于块匹配的启发式方法是光流预测中最主流的传统预测方法,而这些方法对图像的适应性有限,缺乏泛化性,效率低且操作和计算上较为复杂,不利于复杂图像数据光流的提取。而使用卷积神经网络(Convolutional Neural Network,CNN)可以避免人工构造特征所导致计算繁琐且适应性差的问题,通过海量数据自适应学习所需特征,能够更好得提取数据深层信息,且对不同类型图像数据有着较强的适应性。但由于图像光流预测中存在许多复杂问题,例如遮挡、大位移导致目标搜索丢失以及图像细节特征提取不精确,其采用传统结构的卷积神经网络并不能妥善解决这些问题。因此本文为了针对性解决上述复杂问题,并兼顾算法的普适性,对卷积网络解决光流预测问题进行了研究,主要包括以下工作:(1)深入分析研究光流预测方法特征提取过程及其原理,为了针对性解决光流预测中存在的大位移和图像细节问题,对现有卷积神经网络的特征提取部分进行改进。特征提取部分主要由多个卷积层构成,本文将网络的第一层改为由适应调整能力更强的可形变卷积(Deformable Convolution)与可形变池化(Deformable Pooling)组成的卷积层,提高了网络在图像自适应优化方面的能力,利于捕捉运动轮廓的细节,同时,对帧之间像素大小位移有更强的适应性,尤其是大位移情况下可以提供更大的感受野来捕捉像素的运动。实验证明,采用可形变卷积层的网络能够更好地提取相邻帧的图像细节特征,同时提高对大位移的捕获能力。(2)应对遮挡问题提高光流预测网络的预测能力,关键在于从深层次空间特征中计算相邻两帧的相关性,同时基于光流预测网络的流程特性,本文从卷积神经网络的特征融合部分入手,改进现有基于卷积神经网络的光流预测模型常用的匹配融合机制,引入基于注意力机制的特征关联层。将相邻两帧的深层次特征逐通道叠加后进行通道维度上的重构,最大限度保留有效图像空间特征的同时计算两部分特征的关联性,以便后续的反卷积操作能够更好的预测出精确、清晰的光流。实验表明,上述算法不仅有效提高了光流预测的清晰度,同时较大程度的改善了遮挡问题。(3)在上述针对性解决光流预测的遮挡、大位移以及图像细节呈现等问题的同时,为了保证算法的普适性,又引入了循环优化和网络堆栈策略。其主要原理是将几个结构、特点不同的网络级联在一起形成一个网络堆栈,使各个子网络输出的光流经过多个网络循环优化再组合在一起,起到提高光流预测精度的效果。本文的网络堆栈设置了三种结构和内部模块均不同的子网络,从而使网络可以结合不同子网络的优点和特性,输出最终的优化结果。(4)为了验证本文算法的合理性和优越性,将所提出的基于卷积神经网络的光流预测算法在通用数据集Flying Chairs和Mpi Sintel上进行训练和实验,并与当前主流的光流算法进行精度比对,结果表明所提算法在光流精度方面有所提高。为了全面验证改进算法在遮挡、大位移与图像细节呈现等问题的针对性表现,从数据集中选取相应图像与主流算法进行比较。一方面,对实验数据进行比较,结果表明,Flying Chairs数据集上,本文算法所预测光流和实际光流的平均终点误差为1.75,低于比对算法;在Mpi Sintel数据集中,本文算法的平均终点误差为3.83、1.285,同样低于比对算法。另一方面,对直观图像进行比较,结果表明,本文方法对于存在遮挡、大位移和图像细节呈现等问题样本的预测结果也显著优于比对算法。综上表明,本文模型在针对遮挡、大位移和图像细节呈现等复杂问题上有更高的精度和鲁棒性,也证明了使用可形变卷积和基于注意力机制的关联层来改进卷积神经网路在解决此类问题中的重要作用。