基于RGBD数据的三维场景形状补全与语义分割方法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:edwinshi97531
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
三维场景理解是计算机视觉与机器人领域的一个重要研究内容,它赋予了智能机器人感知和分析三维世界的能力。三维场景形状补全与语义分割的联合研究,亦称为语义场景补全(Semantic Scene Completion,SSC),是室内三维场景理解的新兴热门研究课题。其中形状补全任务能够突破物体遮挡和视角的限制,从单帧图像来感知整个场景以及物体的完整几何形状与位置信息;语义分割任务则通过估计物体的类别标签来实现对三维场景的高层次语义理解。三维场景中丰富多样的物体存在尺寸、形状和布局方面的巨大差异,且场景中的物体由于图像视角的限制与遮挡等因素而造成的可见性上的较大变化,使得语义场景补全任务面临巨大的挑战。本文将深度卷积神经网络应用于RGBD(RGB彩色图像和Depth深度图像,RGBD)数据,围绕构建高效、准确的语义场景补全网络模型的研究,为该任务的若干个迫切问题提出了解决方案。主要创新点包括:1.提出一种结合了二维和三维卷积的混合神经网络结构来实现语义场景补全。该网络不仅使用了TSDF编码来获取具有不受投影视角限制的三维栅格数据,而且通过二维卷积网络从原始深度图提取信息,有效地减少栅格化过程造成的细粒度信息的损失。本文通过构建二维与三维的特征投影算法,实现了二维与三维卷积相结合的混合神经网络。该混合结构能够将两种数据统一至三维空间进行处理以实现更加充分的利用,是本文后续方法的网络框架结构的重要基石。2.提出位置重要性感知损失函数(PA-Loss),用于提升网络模型在训练过程中对重要位置的感知能力。以往的语义场景补全方法均未考虑场景中不同位置的体素的重要性的差别,缺少对物体表面、棱边、角点等几何信息更丰富的位置的关注。本文设计了局部几何各向异性来确定不同位置的体素的重要程度,并以此构建PA-Loss来增强训练过程中位于物体表面或场景角落的稀有体素的重要性,同时稀释对象内部携带的冗余信息。因而,该损失函数有利于恢复物体表面和场景角落等部位的关键细节。3.提出维度解耦残差(DDR)三维卷积单元,并基于DDR模块构建了一种轻量化的语义场景补全网络模型。DDR模块将三维卷积的参数量和计算量由三次方增长转变为线性增长,其巧妙的结构能够显著减少网络模型的参数量与计算量而不会降低模型的性能。此外,本文方法将彩色图像的特征图和深度图像的特征图无缝地结合在一起,进一步提高了形状补全和语义分割的精度。4.提出门控循环融合模块(GRF),用于彩色图像和深度图像的三维特征融合。GRF首次在SSC任务中引入“门”结构和“记忆”机制,可以有效地进行两种模态数据之间的选择与融合。本文构建了基于GRF的端到端的网络模型GRFNet,并提出了单阶段和多阶段融合策略,用于在语义场景补全任务中融合颜色信息和深度信息。5.提出一种新颖的各向异性卷积(AIC)模块以提升网络模型对物体的尺寸多样性的自适应能力。不同于普通的三维卷积,AIC模块不再受限于固定大小的三维感受域,而是能够依据每个体素的特征,以各向异性的方式在三个不同的维度上分别进行建模;并且能够通过学习调制参数来调整不同位置的体素所需要的卷积核尺度,从而隐式地实现大小可变的三维卷积内核。而且,与标准三维卷积操作相比,新模块的计算需求更少,参数效率更高,可以当作即插即用模块来替代标准三维卷积单元。通过堆叠多个这样的各向异性卷积模块,可以在确保模型参数量可控的同时,进一步提高网络建模的能力。本文方法在基准数据集上进行了大量实验与评估,结果表明本文的方法明显优于现有方法,达到了当前的较高技术水平。
其他文献
随着现代雷达、激光、红外、声呐等传感器技术的飞速发展,多目标跟踪(Multiple Target Tracking,MTT)已成为信息融合领域的重要研究内容之一,被广泛应用于空中交通管制、导弹防御、智能监控、车辆跟踪等军事和民事领域。多目标跟踪的目的是在目标可能新生、死亡和漏检以及存在杂波和噪声干扰的复杂背景下通过传感器接收的未知来源量测估计未知且时变的目标数目和状态。此外,随着高分辨率传感器的应
复杂网络已在社会学、生物学以及计算机科学等领域得到广泛的应用。作为复杂网络最基本和最重要的拓扑结构属性之一的社区结构,对理解复杂网络功能具有重要意义,因此社区发现成为复杂网络研究中最活跃的议题之一。在互联网快速发展的今天,网络已经渗透到我们现实生活中的方方面面,得益于社区发现技术的发展,我们能够很容易地找到兴趣一致的朋友,也能够被推荐感兴趣的商品,极大地便利了生活。然而,随着网络上的信息通过社区发
随着现代无线通信技术的不断发展,射频前端系统面临着电路模块高度集成和降低设计成本的巨大需求。为顺应这一发展趋势,器件的功能集成设计理念应运而生,功能集成电路因具有高性能、小型化和低成本等优点,在现代无线通信系统中具有广泛的应用前景。另一方面,在射频前端系统中,因频率选择和功率分配的需要,滤波器和功分器通常是不可或缺的重要组成部分,因此,如何有效开展滤波器和功分器的功能集成设计,实现高性能、小型化的
以5G为代表的无线通信技术已成为当前民众接入互联网的主流方式,但由于传输介质的开放特性以及无线侦听、拦截技术的发展,无线通信面临日益增长的安全威胁,其安全和隐私保护已成为信息安全领域的热点问题。作为一种新兴的无线安全通信技术,无线隐信道将隐秘信息的传输隐藏在正常的无线通信过程中,以避免被第三方察觉。相较于其他无线隐信道,星座图调制类无线隐信道利用通用物理层调制冗余将隐秘信息嵌入到正常无线信号的单个
热膜式气体流量传感器是一种面市不久的新型微电子传感器,因其动态响应速度快、功耗低、体积小、易安装等特点,很快在航空、航天、生物医学、汽车、环境监测等领域得到了应用。但一些用户陆续反映,传感器使用一段时间后,其测量精度出现不同程度的下降,带来了流量测量不准或据此进行的后续控制失效的问题,影响了该类传感器的进一步推广和应用,也成了该类传感器的设计和制造企业亟待解决的一个迫切问题。为此,课题围绕造成传感
无序介质所引起的多重散射令入射光束波前发生畸变,使得其分布完全不可预测,极大地限制了光传输能量和信息的能力。近年来基于无序散射介质的光学聚焦与成像技术有所发展,克服了传统光学系统在透过散射介质成像时分辨率低、观测深度有限的缺点,在生物医学、生命科学和材料科学等领域展现了重要的应用价值。但对于光在无序散射介质中传播的理论依据、传输与散射特性、光场调控与测量等方面的研究尚少。因此,为进一步研究运用不同
燃烧诊断在能源工程、航空、航天等领域中有着重要作用,对提高燃烧效率和控制污染气体排放等有重要意义。对燃烧过程中温度、燃烧组分、速度等关键物理参数的测量是燃烧诊断领域的重要课题。得益于光学检测技术具有非接触、无干扰的优势,结合计算层析技术能够进行三维重建测量的特点,火焰发射层析技术(Flame Emission Tomography,FET)能够实现燃烧场三维结构以及关键物理参量的无扰动、瞬态的三维
随着近年来人类对月球探测的深入,月球航天任务对导航通信的需求也日益提高。目前的深空导航通信系统存在对月球空间和月球背面覆盖能力不足、精度和实时性低的问题,难以满足未来载人月球探测以及月球基地建设的要求。因此,急需建立一个可以覆盖整个月球空间和月面的,且具有自主运行能力的导航卫星系统,实现未来对载人月球探测以及月球基地建设提供全方位高精度的实时导航通信服务。拉格朗日点又被称为平动点,由于平动点为不稳
精神分裂症是一种常见的精神疾病,以思维、情感、行为等方面障碍以及精神活动不协调为主要特征,该疾病在人群中的患病率约为1%。我国精神分裂症患者目前大约有800万,并且呈现逐年上升的趋势。精神分裂症患者的社会功能降低,给患者、家庭以及社会带来沉重的经济负担。目前的精神分裂症诊断方法主要是基于患者的临床表现,但是该方法较为主观,容易造成漏诊或误诊。因此,精准快速的识别精神分裂症患者是一个极具挑战性的研究
新课改背景下,初中美术教育迅速地得到了发展。与此同时,随着核心素养理念的深化,初中美术教育从单纯地教授绘画变为更加重视丰富学生学识、培养学生审美、提升学生绘画能力。这一切都要求初中美术增强与其他学科之间的联系,让学生在获得绘画技能的同时,具备一定的学识和应用能力。本研究首先从学校、教师、学生三个维度入手,分析了初中美术教学的现状和问题;其次,论述了核心素养理念下的初中美术跨学科融合教学新模式;最后
期刊