论文部分内容阅读
室内场景语义分割是图像处理领域的一个重要研究方向,在智能安防、虚拟现实等领域有着广泛的应用前景。随着Kinect等深度传感器技术的成熟应用,基于RGB-D图像的语义分割受到海内外学者的广泛关注和深入研究。相较于传统的RGB图像语义分割,RGB-D图像中的深度图可用于解析和提取目标在三维空间中的位置和姿态信息,有效改善颜色和纹理特征易受复杂环境干扰的问题。然而RGB-D图像中深度数据的处理较为复杂,如何将深度图中的空间信息有效地应用到算法环节或模型结构中是研究的重点之一。针对室内场景下的RGB-D图像语义分割,本文主要工作如下:
第一,提出了一种基于密度聚类的语义分割算法。首先,通过引入深度图中物体的空间位置信息作为S-DBSCAN算法的相似度度量,使生成的超像素边缘更接近物体在三维空间中的真实轮廓;其次,通过构建超像素平面在空间中的位置和法向量关系进行区域融合,使生成的候选区域具有更丰富的区域级语义特征;最后,通过提取目标区域的姿态、尺寸、颜色和梯度共四类区域级特征并分析比较AdaBoost和随机森林两种特征分类器,使算法实现高精度的区域分类。实验表明,该算法的语义分割精度领先于多数传统语义分割算法。
第二,提出了一种基于通道注意力机制的RGB-D图像语义分割网络模型。首先,通过设计结合通道注意力机制的编码器结构和解码器结构,使得网络在训练过程中能够自适应地学习和调整特征通道间的权重参数;其次,通过采用focal loss损失函数加强网络对难分样本的学习,使得多类分割任务中的样本不均衡问题得到缓解。实验表明,提出的注意力机制结构和focal loss损失函数能够有效提升网络精度,实验结果达到领先水平。
第三,提出了一种基于条件随机场的分割后处理算法。首先,通过在条件随机场二阶势能函数中加入像素点在空间中的位置和法向量信息,使得改进的随机场概率图模型更契合物体在三维坐标系下的真实形状;其次,通过设计的标注信息反馈机制,使得细化后的语义标注能够指导超像素过分割环节。实验表明,经过后处理的语义标注准确率提升显著,且分割图视觉效果更好。
第一,提出了一种基于密度聚类的语义分割算法。首先,通过引入深度图中物体的空间位置信息作为S-DBSCAN算法的相似度度量,使生成的超像素边缘更接近物体在三维空间中的真实轮廓;其次,通过构建超像素平面在空间中的位置和法向量关系进行区域融合,使生成的候选区域具有更丰富的区域级语义特征;最后,通过提取目标区域的姿态、尺寸、颜色和梯度共四类区域级特征并分析比较AdaBoost和随机森林两种特征分类器,使算法实现高精度的区域分类。实验表明,该算法的语义分割精度领先于多数传统语义分割算法。
第二,提出了一种基于通道注意力机制的RGB-D图像语义分割网络模型。首先,通过设计结合通道注意力机制的编码器结构和解码器结构,使得网络在训练过程中能够自适应地学习和调整特征通道间的权重参数;其次,通过采用focal loss损失函数加强网络对难分样本的学习,使得多类分割任务中的样本不均衡问题得到缓解。实验表明,提出的注意力机制结构和focal loss损失函数能够有效提升网络精度,实验结果达到领先水平。
第三,提出了一种基于条件随机场的分割后处理算法。首先,通过在条件随机场二阶势能函数中加入像素点在空间中的位置和法向量信息,使得改进的随机场概率图模型更契合物体在三维坐标系下的真实形状;其次,通过设计的标注信息反馈机制,使得细化后的语义标注能够指导超像素过分割环节。实验表明,经过后处理的语义标注准确率提升显著,且分割图视觉效果更好。