论文部分内容阅读
室内场景建模作为计算机图形学和计算机视觉领域中的一个基本问题而被广泛研究。它被广泛应用于智能家居、室内设计、虚拟与增强现实、室内机器人及数字娱乐等方面。室内场景建模的核心问题是,基于输入的室内场景的图像、视频、深度图像等可视媒体,重建场景的三维信息,从而模拟真实的场景。相比于图像序列、视频、RGB-D图像等数据,单张图像携带非常有限的、甚至是歧义的场景信息,从而导致基于单张图像的室内场景建模工作面临更多的困难和挑战。如何提取有效的图像特征并利用其对输入的二维场景进行三维建模是基于单张图像的室内场景建模的关键。本文以单张室内场景图像作为输入,采用数据驱动的方法,利用现有的三维模型数据库,从分析图像中的物体和数据库中的三维模型的相关性出发,提取有效的图像特征并用于三维模型检索,进而优化三维模型的空间位置和姿势,最终达到输入室内场景建模的目的。具体来说,本文的主要工作包括以下几个方面:1.提出了一种基于法向信息和边缘特征的室内场景建模方法。我们发现,尽管估计单张图像的深度信息比较困难,但我们可以更加容易、更加准确地估计它的法向信息。法向信息从本质上也传递了输入图像中的场景几何。基于法向信息,我们采用数据驱动的方法来建模输入场景中的每一个物体。具体来说,利用物体的法向信息,我们将此物体表示为图的形式,并通过图匹配从三维模型数据库中检索到与此物体最相似的三维模型。此外,我们加入边缘特征来进一步改善检索结果。借助适量、简单的用户交互,我们的方法可以实现对输入图像中室内场景的合理建模。我们在大量不同种类的室内场景图像上进行实验,建模结果证实了该方法的有效性。2.提出了一种基于模仿室内场景上下文的三维模型检索方法。对于输入的单张室内场景图像,该方法从ShapeNet三维模型仓库里面检索最相似的模型,并将它们与相应的物体对齐。通过模仿场景上下文,该方法对于包含复杂背景和严重遮挡的室内场景仍然可以取得很好的结果。具体来说,每一个三维模型首先被绘制成一系列不同视点的图像,并被表示成标定过的与视点相关的视觉元素。随后利用估计到的场景内物体之间的遮挡关系,模型图像装配成新的合成场景来模仿场景上下文,通过合成场景与输入图像进行匹配,对于每一个物体,都会检索到最相似的三维模型并且匹配到最相似的视点。在公共图像数据集的实验结果证明了该方法的有效性。此外,我们提出一种有效的贪心算法来显著提升检索效率。在大量合成图像上的实验结果表明了该方法可以取得很高的检索精度,明显优于现有的方法。3.提出了一种基于物体分割和模型检索迭代优化的室内场景建模方法。对于输入的单张室内场景图像,用户只需要拖拽一些语义包围盒去标明每个物体的类别和位置。对于输入图像中的目标物体,该方法自动地从三维模型仓库里检索最相似的模型,并将其与该物体对齐。我们观察到,对目标物体的成功分割可以明显提高三维模型检索的准确性,并且使得检索对于复杂背景和遮挡有很好的鲁棒性;反过来说,检索到的三维模型可以用来辅助输入图像中物体的分割,我们充分利用目标物体与检索到的模型图像之间的对应关系,并且在一个统一的多标号框架下进行输入图像的分割。基于此,我们迭代地进行物体分割和三维模型检索,使得结果不断改善。另外,我们借助场景中物体的分割掩模来推断输入图像的场景布局,在极大程度上帮助了三维场景的合成,明显改善了室内场景建模结果。通过大量的实验,以及与相关方法的对比,我们验证了该方法的有效性。