【摘 要】
:
三维重建是计算机视觉的一个热门研究方向,其主要目标是通过物体的二维特征精确地恢复它的三维特征。传统的三维重建通过使用高分辨率的图像采集设备获取目标物体的二维特征,然后使用算法重建它的三维特征,但是算法的计算量较大、实时性较差,且易受图像采集设备和拍摄条件的影响,导致目标的三维重建精度无法得到保证。近年来,随着神经网络和深度学习技术的发展,国内外学者通过训练深度学习模型来实现二维图像到三维特征的转化
论文部分内容阅读
三维重建是计算机视觉的一个热门研究方向,其主要目标是通过物体的二维特征精确地恢复它的三维特征。传统的三维重建通过使用高分辨率的图像采集设备获取目标物体的二维特征,然后使用算法重建它的三维特征,但是算法的计算量较大、实时性较差,且易受图像采集设备和拍摄条件的影响,导致目标的三维重建精度无法得到保证。近年来,随着神经网络和深度学习技术的发展,国内外学者通过训练深度学习模型来实现二维图像到三维特征的转化,如3D-R2N2网络、Pix2Vox网络和Pix2Vox++网络,均可以在传统的三维重建方法失败的情况下(缺乏纹理或宽基线)实现对目标的三维重建。然而,3D-R2N2网络的三维重建精度偏低,Pix2Vox网络也不能流畅地实现二维特征到三维特征的端到端映射,为此,本文对Pix2Vox网络的结构进行了改进。为了更进一步地实现单视图由低分辨率到高分辨率的三维重建,以及多视图三维特征的精确融合,本文重构出一种基于深度神经网络的多视图目标三维重建网络(称之为Pix2Vox-Pro)。本文主要研究内容如下:(1)研究并改进Pix2Vox网络。首先,在Pix2Vox网络中添加深度估计网络,流畅地实现了二维特征到三维特征的端到端映射。然后,在三维特征生成网络中使用线性上采样和反卷积融合升维模块,实现粗粒度和细粒度相融合的三维重建过程。实验表明,上述改进加快了模型的收敛速度,提升物体三维重建的Io U。(2)设计了一种Pix2Vox-Pro网络。该网络能够对目标的RGB图像进行多视图三维重建。在编码网络和解码网络直接加入多个深度估计模块,实现从多个尺寸的二维特征生成相应的三维特征,从而更好地实现单视图由低分辨率到高分辨率的三维重建;进一步地,提出上下文多尺度感知融合网络,更好地把每个视图生成的三维特征进行融合。实验表明,Pix2Vox-Pro网络在Shape Net数据上的单个视图三维重建的Io U值为0.677,而多个视图三维重建的Io U值可以达到0.725。(3)在Pix2Vox-Pro网络中引入3DFocal Loss作为损失函数。使用3DFocal Loss代替二元交叉熵作为损失函数,有效地解决了物体在体素网格中的占比不均衡、以及部分网格难以区分的问题。通过对本文提出的多视图三维重建网络做定性和定量实验,结果表明,本文提出的Pix2Vox-Pro三维重建Io U比现有的Pix2Vox平均高出1.5%以上,比Pix2Vox++高出平均高出0.6%以上,更好地实现了目标物体的三维重建效果。
其他文献
在农业生产和科学研究中,不同大豆品种和不同的大豆根瘤菌匹配,其共生结瘤和固氮的效率和表型是不一样的,甚至差别很大。这些共生表型受到宿主植物和根瘤菌双方一系列基因的调控。从宿主植物和微生物两方面研究共生固氮相关基因,充分发掘共生固氮潜力,既有明显经济意义,又有重要科学价值。本文从上述两个方面开展研究:1)基于分别接种大豆快生型和慢生型根瘤菌,测定获得了用于全基因关联分析(Genome Wide As
现阶段,在社会发展与经济发展的背景下,我国在产业发展方面进行了巨大的调整,更加提倡新能源的运用,这也促进了我国风力发电、光伏发电工程的进一步发展。发电工程的施工建设需要及时的辨识危险源并针对性的进行分析,从而制定安全管理方案,为工程建设规避安全隐患和风险。鉴于此情况,本文将围绕光伏电站工程施工危险源辨识及施工安全管理要点进行研究,以此为关注这一方面的人员提供借鉴。
生物特征识别技术拥有方法新颖、移植性强、辨识度高、容错率低、使用便捷等众多优点,因此被广泛研究。但是,随着科技快速发展以及社会环境的复杂化。单模态生物特征识别容易伪造、识别精度局限性、约束条件广泛等众多不利因素,导致识别系统安全性能低下,难以满足高性能需求,时刻威胁着国家和人民财产安全。研究发现,通过将多种模态生物特征结合起来进行识别,可以获得比单模态识别更好的效果。因此基于多模态生物特征识别技术
人类的视觉能够捕捉到视角内的所有部件,并且可以通过对部件的排列组合来感知物体,这种能力被称为物体感知能力。物体感知能力是人类与世界交互的一项基本能力,而让计算机能够像人脑一样地感知物体是计算机领域的一项难点。虽然传统的神经网络在计算机各个图像处理领域都有着不错的表现,但传统的神经网络对物体进行感知时,只考虑了物体是否存在,而忽略了对物体组成及其结构的理解。胶囊网络的提出被认为是可以和人脑一样地感知
随着互联网和各种新兴技术的快速发展,越来越多的用户设备支持多种方式接入互联网,但是传统的TCP(Transmission Control Protocol,TCP)协议每次只能建立一条连接进行通信,极大的降低了通信的效率,多路径传输技术逐渐引起了研究学者的关注。因此研究学者在TCP协议的基础上提出了多路径传输协议(Multipath TCP,MPTCP),该协议可以建立多条通信链路进行数据传输,提
细菌通过群集感应等机制响应细胞密度、建立相互作用和协调特定生理过程。细菌与噬菌体的长期共存也产生了多种信息交流系统。最近在SPbeta类噬菌体中鉴定出一种新型的交流系统—arbitrium信号交流系统。噬菌体在感染枯草芽胞杆菌(Bacillus subtilis)细胞后,产生信号短肽,分泌至细菌外部,经蛋白酶切割成六个氨基酸的成熟短肽,称为arbitrium短肽。短肽在胞外积累至一定浓度后,转运至
如今人机交互模式朝着越来越智能化的趋势发展,要得到更加贴心的机器服务,那么机器就需要更加了解人类内心的真实情感。面部情感作为“人”的一种自然情绪表达,有效识别其情感种类,对生活向高质量发展具有着十分重要的现实意义。在当前研究中发现,面部情感特征细微多变、相近情感类别易混淆、市面上成熟的情感识别系统较少。针对这些问题将胶囊网络作为面部情感特征识别的基础框架,依据面部情感特点对网络进行改进,提出一种准
夏比冲击试验(Charp Impact)和准静态断裂韧度试验(Quasistatic Fracture Tough ness)是评定管线钢材质量的两种重要力学试验,本文主要研究这两种力学试样断口图像的特征区域识别和相关特征参数评定的智能化。对于夏比冲击试样的评定,我国现行标准中给出了以对比法和游标卡尺测量法为主要测量方法的多种评定手段,以此计算夏比冲击试样断口的纤维断面率,作为评定钢材质量的指标。
合成孔径雷达(Synthetic Aperture Radar,简称SAR)受光照、天气等限制较小,可以全天候提供高分辨率的目标图像。视频SAR可以以一定帧频连续捕获SAR目标,从而将观测场景的动态信息以视频的方式呈现出来,为场景实时感知提供了可能。但是,由于视频SAR技术刚刚起步,可以公开获取的视频SAR图像非常有限,这给相关场景感知技术研究带来了很大困难。鉴于这一现状,本文采用生成对抗技术,对