论文部分内容阅读
作为深度学习技术应用于图像语义分割最新且最具代表性的模型,全卷积网络(Fully Convolutional Networks, FCN)继承了深度卷积神经网络优异的特征提取能力,它能准确地识别图像中目标的语义类别,但是它对目标细小边缘的分割定位准确度有所欠缺。为了提升FCN模型对目标细小边缘的定位精度,本文提出将图像的边缘信息与FCN模型进行融合。 文章首先将深度卷积神经网络VGG-16转换为FCN模型,同时对图像进行超像素分割,然后利用利用FCN模型获得的像素级分类图谱对超像素进行语义标注,从而实现图像的语义分割。为了提高超像素的边缘贴合度更高,本文对 SLIC(Simple Linear Iterative Clustering)算法进行了3点改进,首先,降低初始聚类中心的几何分布的对称性,使超像素在图像细小复杂边缘处更能服从图像内容的局部非对称性;其次,将图像边缘像素的邻域点初始化为聚类中心,使靠近图像边缘的像素点划分到同一个超像素中,有效减少超像素跨越图像边缘的可能性;最后,将两点直连线间存在边缘点的像素距离置为无穷大,进一步降低了处于图像边缘两侧的像素点被划分到同一个超像素中的可能性。针对超像素的语义标注,本文根据超像素中是否存在边缘以及不同语义类别出现的概率提出了四条准则,尤其当超像素中存在边缘且有不同的语义类别时,若存在某一语义类别概率超过80%,则将超像素用出现概率最大的类别进行标记;若不存在某一类别的概率超过80%,则超像素的语义标注服从FCN模型的标记结果。鉴于超像素具有良好的局部连续特征,该标记准则能在一定程度上降低FCN模型预测低级特征时的误差,即提高其对目标边缘的定位分割准确度。 本文在 BSDS500样本集上对改进前后的 SLIC算法进行仿真对比实验,实验结果表明,改进后的算法对图像边缘有更好的贴合。本文将改进前后的 FCN模型在BSDS500和PASCAL VOC2011两个样本集的并集上进行了训练和测试,测试结果表明改进后的模型的区域准确率为65.20%,像素准确率为77.15%;相比原始FCN模型,本文提出的方法在区域准确率和像素准确率上分别提升了2.51%和1.29%。