论文部分内容阅读
场景语义分割是图像理解的基础,其目标是将图像中的每个像素标注为其所属对象的类别,在机器人、医疗、交通等领域具有广泛的应用。相比于室外自然场景,室内场景语义分割面对的物体类别更多,具有较高的挑战性。RGB-D传感器在提供场景颜色信息的同时,还提供了与环境光照、物体表面纹理无关的深度信息,目前被广泛应用于室内物体检测和场景理解中。近年来深度学习以及卷积神经网络在计算机视觉领域取得了突破性的进展。本文基于深度卷积神经网络,研究RGB-D室内场景语义分割技术,主要从深度数据初始编码、RGB-D卷积神经网络融合、基于CRF的语义分割优化三个方面展开研究,取得成果如下: (1)提出了一种基于多层次垂线拟合的重力检测方法 深度数据初始编码是卷积神经网络学习场景几何表述的基础,当前文献大多采用HHA编码,包括水平视差、离地高度、法线与重力夹角三维,其中场景重力方向极大的影响离地高度以及法线与重力夹角两维。为了提高现有重力检测方法的鲁棒性,本文基于场景中的垂线进行重力方向检测。为了减少3D空间垂线检测的计算复杂度,提出了基于多层次垂线拟合的重力检测方法。首先在当前场景RGB图像中利用Hough变换检测出候选垂线,然后在对应的3D点云空间,利用最小二乘法进行垂线拟合,最后将得到的垂线的平均方向作为场景重力方向,并进一步对HHA编码中的后两维数据进行改进。实验结果表明,本文改进后的HHA编码在NYUDv2数据集40类任务上的效果好于原始的HHA编码。 (2)提出了一种基于加权融合的RGB-D协同训练方法 RGB-D场景语义分割涉及到RGB和Depth两种数据来源,为了充分挖掘二者的优势,本文利用卷积神经网络研究RGB-D的联合建模问题,根据RGB模型和Depth模型在不同类别上识别性能的差异性,提出了基于加权融合层学习的双通道CNN协同训练方法。首先在RGB和Depth数据上分别训练深度卷积网络模型,用来初始化双通道网络权重,然后增加一个基于学习的加权融合层,将两个网络的预测结果进行权重卷积,得到融合后的预测结果,然后进行误差反向传播,完成端到端的训练。实验结果表明,基于学习的加权融合方式比简单的平均加和效果更好。 (3)提出了一种融合场景几何信息的CRF势能函数构建方法 利用以上RGB-D融合的卷积神经网络虽然能得到像素级的类别标注结果,但得到的预测结果较平滑。本文进一步采用CRF对卷积神经网络的预测结果进行优化,基于场景几何信息,提出了融合法线方向的二元势能函数。首先将深度卷积神经网络的预测输出作为CRF的一元势能,在RGB颜色约束和位置约束基础上,引入平面法线约束作为二元势能,同时采用分阶段网格搜索策略来快速确定CRF的超参数,极大的减少了计算时间。实验结果表明,增加CRF优化后的语义分割结果比单纯的卷积神经网络方法提升了1%至2%。最后,结合本文提出的深度数据初始编码、卷积神经网络融合以及CRF精细化三方面的改进,本文在NYUDv2数据集的40类语义分割任务上取得了当前最好的识别结果。