论文部分内容阅读
图像语义分割是计算机图像领域的一项基础任务,也是机器理解图像的关键步骤。早期的图像分割方法通过图像本身的特征将其划分为不同的区域,并不能识别区域的物理意义,这与人类通过不同类别的物体分割图像的方式不符,因此与实际应用的结合较为有限。而随着深度卷积网络的发展,全卷积神经网络将原本用于图像分类任务的模型扩展到了像素级的分类任务上,通过给每个像素赋予一个类别标签实现了将图像划分为不同类别区域的目标,即图像语义分割。图像语义分割的研究工作对其它同样关注图像细节的机器视觉研究具有指导意义,例如目标检测、超分辨率重建等;在自动驾驶、医学影像分割、行人检测等领域也有广泛的应用。基于全卷积网络的深度卷积网络模型实现了端到端的图像语义分割,卷积神经网络强大的语义抽象能力是其优势,使得模型能够准确地预测像素点的类别,但卷积网络结构和训练过程的限制,也为图像语义分割带来了挑战。图像语义分割的研究主要包含三个方向:用于提取抽象语义特征的骨干网络、用于上采样和提升特征质量的头部网络和确保网络参数能够更好地收敛的损失函数。本文主要针对头部网络和损失函数进行研究,主要工作如下:(1)由于卷积神经网络感受野的限制,模型提取到的特征可能存在类内不一致和类间不可区分的问题,因此需要引入更多的上下文信息来对像素点之间的关系进行建模,从而得到更具区分性的语义特征。针对这一问题,本文提出了上下文注意力模块,通过粗分割结果和每个像素点的特征聚合得到了一组类别特征,通过计算各个像素点的特征和每个类别特征的相似度,对粗分割结果进行更新,然后利用更新后的分割结果,将类别特征分配到每一个像素位置,最后将得到的特征图和原始特征图融合,从而得到了区分性更强的注意力特征图。(2)卷积神经网络不同阶段提取到的特征图具有不同的特点,浅层特征的感受野较小,因此只能提取到一些局部特征,特征图的分辨率较高,细节信息更加丰富;而深层特征经过多层卷积的抽象,语义信息更加明确,能够更准确地进行分类。为了结合不同层次特征的优势,本文提出了门控融合细化模块,通过门控机制选择单层特征无法准确识别的区域,利用额外的卷积层将多层特征融合作为这部分区域特征的补充。(3)多层特征融合的目标是利用不同层特征的特点,提升识别难以分类的像素点的准确度,为了使模型能够更加关注于对这些困难像素点的识别,提升多层特征融合模块的效果,本文从损失函数的角度入手,分析了困难像素点在类别和区域两个方面的分布情况,针对性地提高了困难像素点的损失权重,促使模型能够学习到整体分割精度更高的参数。(4)在三个图像语义分割领域常用的数据集上进行了实验,均取得了最好的分割结果。并通过量化每个模块对整体分割精度提升的影响,证明了本文所提算法的有效性。在PASCAL VOC数据集上对比了本文算法和其他相似算法的复杂度和实时性,证明了本文所提算法的优越性。并对各个模块进行了可视化,直观地展示了其对分割结果的影响。