论文部分内容阅读
计算机视觉和计算机图形学领域的主要研究目标是如何使计算机具备人的视觉能力,其主要包含两个方面:一是渲染,即将客观存在的三维世界通过视觉系统映射为二维图像;二是重建,即通过人眼或者摄像机捕捉的二维投影图实现对三维场景的理解与感知。如今,计算机科学技术、神经网络以及深度学习等方法的迅猛发展,使得基于图像的三维重建及渲染技术在导航定位、医疗图像、资源探测、工业设计、自动驾驶、数字娱乐及智慧城市方面的应用愈发普遍。因此,研究高效、准确的三维重建和渲染方法具有非常重要的社会和学术价值。经典的三维重建方法利用深度传感设备,从多个视角获取具有深度信息的图像,进而去恢复物体完整的三维结构。在实际应用中,扫描重建对象的所有表面并不总是可行的,这可能导致重建的三维结构出现塌陷、空洞等现象;而且处理多视角图像需要消耗更多的计算资源,无法满足实际应用中对实时性的要求。此外,传统的三维渲染解决方案因渲染管线中使用了光栅化、可见性计算等离散运算,导致渲染方程没有明确建立渲染参数和投影图之间的关系,因此无法实现逆向渲染。针对上述问题,本论文提出一种基于卷积神经网络的三维重建和渲染模型,其既可以基于单视角图像实现对物体三维结构的重建,又可对物体的三维结构进行渲染。该模型包含三维重建网络和三维渲染网络两个部分:重建网络由一个用于提取物体特征的图像编码器和两个分别用于恢复物体三维结构和纹理信息的解码神经网络组成;渲染网络包含三个卷积神经网络,分别实现三维结构采样、降维映射和渲染图像生成的功能。本文研究以数据驱动,利用深度学习对卷积神经网络进行训练,实现基于单视角图像的物体三维重建,并对重建的三维模型进行渲染。训练后的网络既可利用物体的单视角图像,通过重建网络对其三维结构进行重建,又可以在已知其三维结构的情况下,基于不同的纹理信息对其进行渲染,充分发挥了图像数据样本多、类型广泛的优势以及深度学习强大的表征能力,为三维重建和三维渲染的研究工作提供了新的解决思路和办法。