面向RGB-D语义分割的深度卷积神经网络联合建模研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:muyiwenwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景语义分割是图像理解的基础,其目标是将图像中的每个像素标注为其所属对象的类别,在机器人、医疗、交通等领域具有广泛的应用。相比于室外自然场景,室内场景语义分割面对的物体类别更多,具有较高的挑战性。RGB-D传感器在提供场景颜色信息的同时,还提供了与环境光照、物体表面纹理无关的深度信息,目前被广泛应用于室内物体检测和场景理解中。近年来深度学习以及卷积神经网络在计算机视觉领域取得了突破性的进展。本文基于深度卷积神经网络,研究RGB-D室内场景语义分割技术,主要从深度数据初始编码、RGB-D卷积神经网络融合、基于CRF的语义分割优化三个方面展开研究,取得成果如下:  (1)提出了一种基于多层次垂线拟合的重力检测方法  深度数据初始编码是卷积神经网络学习场景几何表述的基础,当前文献大多采用HHA编码,包括水平视差、离地高度、法线与重力夹角三维,其中场景重力方向极大的影响离地高度以及法线与重力夹角两维。为了提高现有重力检测方法的鲁棒性,本文基于场景中的垂线进行重力方向检测。为了减少3D空间垂线检测的计算复杂度,提出了基于多层次垂线拟合的重力检测方法。首先在当前场景RGB图像中利用Hough变换检测出候选垂线,然后在对应的3D点云空间,利用最小二乘法进行垂线拟合,最后将得到的垂线的平均方向作为场景重力方向,并进一步对HHA编码中的后两维数据进行改进。实验结果表明,本文改进后的HHA编码在NYUDv2数据集40类任务上的效果好于原始的HHA编码。  (2)提出了一种基于加权融合的RGB-D协同训练方法  RGB-D场景语义分割涉及到RGB和Depth两种数据来源,为了充分挖掘二者的优势,本文利用卷积神经网络研究RGB-D的联合建模问题,根据RGB模型和Depth模型在不同类别上识别性能的差异性,提出了基于加权融合层学习的双通道CNN协同训练方法。首先在RGB和Depth数据上分别训练深度卷积网络模型,用来初始化双通道网络权重,然后增加一个基于学习的加权融合层,将两个网络的预测结果进行权重卷积,得到融合后的预测结果,然后进行误差反向传播,完成端到端的训练。实验结果表明,基于学习的加权融合方式比简单的平均加和效果更好。  (3)提出了一种融合场景几何信息的CRF势能函数构建方法  利用以上RGB-D融合的卷积神经网络虽然能得到像素级的类别标注结果,但得到的预测结果较平滑。本文进一步采用CRF对卷积神经网络的预测结果进行优化,基于场景几何信息,提出了融合法线方向的二元势能函数。首先将深度卷积神经网络的预测输出作为CRF的一元势能,在RGB颜色约束和位置约束基础上,引入平面法线约束作为二元势能,同时采用分阶段网格搜索策略来快速确定CRF的超参数,极大的减少了计算时间。实验结果表明,增加CRF优化后的语义分割结果比单纯的卷积神经网络方法提升了1%至2%。最后,结合本文提出的深度数据初始编码、卷积神经网络融合以及CRF精细化三方面的改进,本文在NYUDv2数据集的40类语义分割任务上取得了当前最好的识别结果。
其他文献
软件项目管理技术是从软件过程中的管理过程发展起来的,大多是定性的管理技术,主要包括计划和监督控制等内容。著名的三维约束是软件项目管理的核心内容,而成本和进度正是其中的
智能网系统综合应用了电信技术和计算机技术,作为一种新型的网络体系结构,在社会生活中发挥着日益重要的作用.智能网运营支撑系统的提出是为了解决如何经营、管理、提出和推
从70年代开始企业就使用IT支持系统到21世纪初企业大规模地使用信息系统,信息孤岛成为企业信息技术发展的现实问题.如何使企业在不同历史时期积累的大量信息和现有应用系统共
IP分组网的迅猛发展,以及在分组网上语音传输的试验性进展,都促成了IP电话的产生。IP电话与传统电话相比,它能实现音频、视频和数据业务的综合传输,价格低廉,并且易于扩展增值服务
入侵(Intrusion)指的就是试图破坏计算机保密性,完整性,可用性或可控性的一系列活动.入侵检测(Intrusion Detection)就是对计算机网络和计算机系统的关键结点的信息进行收集
汽车牌照的识别问题是一个比较经典的识别问题,但以前人们研究大多是从静态图片进行,拍摄距离较近,所以车速不能太大,一般是让汽车在近距离停下,然后拍摄,再进行识别,单幅图片信息量
NAS存储管理系统的框架主要由数据源的收集,数据源的正确显示,备份恢复任务的定制,任务的执行等构成.为了提高框架的可复用性和可扩展性,采用了面向对象的设计方法,并将几种
现代数据库应用领域要求数据库系统既具有高性能的事务处理能力又能满足实时应用需求.将并行数据库与实时数据库理论结合起来的井行实时数据库系统正好能满足人们的需求.并行
在基于Web的应用系统逐渐成为主流的今天,企业级应用需要处理的数据量越来越大,大量历史数据的查找工作对应用系统的性能提出了挑战.我们设计并实现了一种改进的大数据量访问
智能化赋予了物联网更深刻实用的价值,但是计算能力强与功耗低的双重要求是目前的单处理器物联网设备无法满足的。异构多处理器结构与单一或者同构的多处理器相比可以结合不同