论文部分内容阅读
基于主动视觉的多模态感知是指采用主动光源投射的测量设备获取多模态图像数据的技术。相比于单一模态的彩色图像,多模态图像提供更多信息,更适用于目标种类繁多的室内场景。由于室内场景的环境特点,使得目前面向室内场景的多模态感知方法仍存在诸多的关键技术难点,例如场景的光照不均、目标的相互遮挡、精度要求高、场景变化多、数据融合难等。本文在分析总结国内外相关研究成果的基础上,针对现有方法的不足,提出了多个基于主动视觉的多模态感知任务,包括深度感知、RGB-D图像数据融合(超像素分割)、反射率估计、多模态三维重建和目标检测,从而实现了基于主动视觉的室内场景多模态感知。本文主要研究内容和创新成果如下:
针对室内环境中主动视觉深度感知的光照干扰和测量遮挡问题,提出了一种基于卷积自编器的结构光深度感知方法。该方法应用卷积自编码器去除结构光系统中激光图像噪声,从而提高深度测量的准确度。为了减少标注数据量,定义小尺寸的图像块为自编码器输入,并依据此建立用于图像去噪的小样本数据集。在此基础上,采用自建数据集训练深层卷积自编码器进行图像去噪。该方法降低了结构光系统的外部噪声并大幅提高了深度感知的准确度。
针对RGB-D图像多模态间融合步骤复杂、面向高层视觉任务时特征提取时效性低的问题,提出了一种面向RGB-D图像的超像素分割方法。该方法使用聚类算法框架,以像素间的颜色相似性、空间接近度和几何相似性为聚类标准。在此基础上,引入RGB-D图像特有的共面特征和内容自适应权重,实现高速的线性迭代计算。该方法可以在室内场景的RGB-D图像中有效提取多模态特征,产生全覆盖的超像素分割结果。
针对反射率估计速度慢、精度低、测量设备复杂的问题,提出了基于非稳态随机过程的近红外反射率鲁棒估计方法。该方法以Kinect二代传感器采集结果计算初始反射率,并建立反射率加性噪声模型,同时提出光照度鲁棒估计的概念,简化反射率图像非稳态随机过程模型。该法的反射率估计结果优于其他去噪算法,适用于室内场景的反射率图像高精度估计
针对包含彩色、深度、红外反射率信息的多模态图像(RGB-D-A图像)数据融合困难、视觉应用研究较少的问题,提出了一种面向多模态图像的配准与三维重建方法,以及一种基于多模态特征的目标检测方法。三维重建方法采用标定采集设备的彩色相机与红外相机的方式配准RGB-D-A图像,并根据红外反射率估计彩色反射率,实现彩色反射率点云的三维重建。目标检测方法采用多模态特征融合和亚像素标签生成语义候选长方体,并通过多分类排序算法筛选出语义长方体检测结果。该方法不仅能够检测出物体在三维空间中的位姿,并可以实现目标的准确分类。这些方法验证了本文感知的多模态数据在视觉算法中的作用,体现了多模态图像的应用价值。
针对室内环境中主动视觉深度感知的光照干扰和测量遮挡问题,提出了一种基于卷积自编器的结构光深度感知方法。该方法应用卷积自编码器去除结构光系统中激光图像噪声,从而提高深度测量的准确度。为了减少标注数据量,定义小尺寸的图像块为自编码器输入,并依据此建立用于图像去噪的小样本数据集。在此基础上,采用自建数据集训练深层卷积自编码器进行图像去噪。该方法降低了结构光系统的外部噪声并大幅提高了深度感知的准确度。
针对RGB-D图像多模态间融合步骤复杂、面向高层视觉任务时特征提取时效性低的问题,提出了一种面向RGB-D图像的超像素分割方法。该方法使用聚类算法框架,以像素间的颜色相似性、空间接近度和几何相似性为聚类标准。在此基础上,引入RGB-D图像特有的共面特征和内容自适应权重,实现高速的线性迭代计算。该方法可以在室内场景的RGB-D图像中有效提取多模态特征,产生全覆盖的超像素分割结果。
针对反射率估计速度慢、精度低、测量设备复杂的问题,提出了基于非稳态随机过程的近红外反射率鲁棒估计方法。该方法以Kinect二代传感器采集结果计算初始反射率,并建立反射率加性噪声模型,同时提出光照度鲁棒估计的概念,简化反射率图像非稳态随机过程模型。该法的反射率估计结果优于其他去噪算法,适用于室内场景的反射率图像高精度估计
针对包含彩色、深度、红外反射率信息的多模态图像(RGB-D-A图像)数据融合困难、视觉应用研究较少的问题,提出了一种面向多模态图像的配准与三维重建方法,以及一种基于多模态特征的目标检测方法。三维重建方法采用标定采集设备的彩色相机与红外相机的方式配准RGB-D-A图像,并根据红外反射率估计彩色反射率,实现彩色反射率点云的三维重建。目标检测方法采用多模态特征融合和亚像素标签生成语义候选长方体,并通过多分类排序算法筛选出语义长方体检测结果。该方法不仅能够检测出物体在三维空间中的位姿,并可以实现目标的准确分类。这些方法验证了本文感知的多模态数据在视觉算法中的作用,体现了多模态图像的应用价值。