基于三维聚合网络的立体匹配方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:sorkayi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习的发展,人工智能热潮兴起,自动驾驶、移动机器人等技术成为当前的研究热点。这些智能化应用中,双目视觉技术被广泛使用,而立体匹配是双目视觉技术的关键。近年来,卷积神经网络在立体匹配任务中表现出了良好的性能。然而,基于深度学习的立体匹配方法通常使用空间共享的卷积权值,这导致现有方法面临着一个困境,即适合于在平滑区域聚合上下文信息的权值往往会模糊纹理区域的局部匹配细节,反之亦然。本文旨在设计一种新颖的区域可分离的立体匹配(region separable stereo matching,RSSM)方法解决这一困境。基于深度学习的立体匹配方法按照聚合网络的卷积类型可以划分为基于二维聚合网络和基于三维聚合网络的方法。其中基于三维聚合网络的方法能在代价体(cost volume)中保留更多通道维度的信息,获得更高的精度。本文提出的RSSM方法可以普遍适用于基于三维聚合网络的立体匹配模型,使现有模型的精度和效率同时得到显著的提高。本方法的核心思想是,根据梯度自适应地将图像分成不同区域,然后有区分性地构造和处理不同区域的代价体。具体来说,为了进行代价聚合,我们提出了一种两阶级联的网络,由区域分组聚合(regional grouping aggregation,RGA)和区域融合聚合(regional fusion aggregation,RFA)组成。在RGA中,卷积沿通道维度分组,并通过分区域监督使每组卷积学习适合于相应区域的权值。通过RGA,每组卷积可以提取并处理最具区域代表性的特征。在RFA中,我们结合图像所有区域的匹配信息,输出最终预测的视差图。我们进一步在特征提取阶段延用区域分组的思想,并对聚合网络中的跳跃连接进行改进,以使我们的方法更好地适用于立体匹配模型。我们在三个公开数据集,即Scene Flow、KITTI 2012和KITTI 2015上进行了实验。实验结果表明我们的方法能显著提高多个最先进的(state-of-the-art)三维立体匹配模型的准确性和效率。同时,在现实场景的优秀表现体现了本方法的应用价值。
其他文献
无迹卡尔曼滤波(Unscented Kalman Filter,UKF)作为一种稳定无偏且可用于非线性系统的估计方法,广泛应用于组合导航中。但是在噪声条件恶劣的情况下,噪声模型难以准确建立,导致UKF的性能严重下降,无法满足组合导航的需求。本文研究了新息自适应无迹卡尔曼滤波方法,可提升全球卫星导航系统(Global Navigation Satellite System,GNSS)和惯性导航系统(
学位
物联网的广泛应用推动了低功耗广域网(Low Power Wide Area Network,LPWAN)技术的快速发展,LPWAN技术的低功耗和低成本特性导致通信系统中存在较大的频偏,以及终端可能存在小范围的移动导致系统出现多普勒衰落现象,频偏和多普勒衰落是影响LPWAN系统性能的主要原因之一。由于当前LPWAN技术的解决方式中存在不足,如基于扩频技术(Lo Ra)的频谱利用率不高以及基于差分相位
学位
信息技术的快速发展为网络研究提供了新的方法,社区发现和节点角色划分作为网络研究领域两个重要的方向在近些年来逐渐被研究人员关注,它们在不同的领域有十分广泛的应用。现实世界中的网络往往是多层网络,多层网络相较于单层网络,能包含更多的信息,更大程度的反映真实的情况,本文针对多层网络社区发现和有向加权图的角色划分进行研究,主要贡献包括:1)现有关于多层网络社区发现以及节点角色划分任务的公开数据集缺少社区和
学位
随着移动互联网的快速发展,网络中用户数增多和服务的多样化,对网络系统中有限资源的调度分配方法提出了更高的要求。对基站的调度技术而言,如何通过更好的调度算法提升系统的整体性能,成为了第五代移动通信移动技术的重点研究内容。由于MIMO技术充分利用了空间复用增益,能够有效提升系统性能,而得到广泛应用。因此,应用MIMO技术的5G网络系统中用户调度算法的性能评估是本文的主要内容。而目前多用户传统调度算法完
学位
采用深度学习技术进行医学影像分析是当前的热点研究问题,其研究成果将辅助医生诊断并有利于促进人类健康。针对从三维CT影像中识别新型冠状肺炎和肺动脉栓塞这两个重要问题,为减轻医学专家的手工标注工作量,本文研究了在弱标记情况下(即只给定患者级别标签)深度网络设计与训练方法。新型冠状肺炎是近年来最重大的传染性呼吸道疾病之一,在全世界范围内已造成三百多万人的死亡。在新冠疫情初期缺乏病灶标注且计算资源受限情况
学位
随着信息技术的日新月异,自然语言处理在机器翻译、智能问答、文本分类等领域有着广泛的应用前景,为人们的生活带来很多便利。自然语言处理技术需要将海量的非结构化文本,加工处理成可被计算机学习和理解的数据对象。作为自然语言分析的基础,标注文本数据成为研究自然语言处理算法的一个必要步骤。本文详细介绍了一个众包文本标注系统,本系统为自然语言处理的研究人员以及文本数据标注者提供了一个语料标注的平台,满足多种标注
学位
步态识别是通过人的步态特征对行人身份进行识别,步态特征相较于其他生物特征有着明显的优势,即在远距离或低视频质量情况下的可辨别能力。由于人的走路姿态是一种长时间的行为习惯,这种习惯不容易隐藏和改变,步态特征难以伪装和模仿,可以用于行人身份的识别。近年来,随着人工智能和深度学习的发展,人们更倾向于利用人工智能技术来处理识别领域的一些问题,步态识别逐渐走进人们视野,在安防和刑侦领域都极具发展潜力。很多资
学位
近年来,随着无线通信技术的发展,越来越多基于无线网络的应用诞生。诸如无人驾驶、无人机、智能电网等物联网应用对通信带宽、时延等服务质量(Quality of Service,Qo S)指标的需要不断提高,这也使得在无线网络中,大量的基础设施需要共享有限的信道资源(如空间、频域、时域等)。因此,作为解决无线网络中资源分配问题的关键,调度一直都是无线通信中研究的核心和热点问题。本文研究的是无线调度中的经
学位
情感分析是情感计算领域的主要角色,该任务主要是利用计算机来检测、分析和评估人类对不同事件、问题等兴趣产物的认知,它的应用场景在我们的生活中可以说是无处不在,在商品零售、社会舆论、金融交易等领域均能够发挥巨大的作用。传统的情感分析大多数只是基于单一模态特征来进行推理,然而在我们周围的世界中,往往包含着多种多样的模态信息,比如我们身处于一个对话场景中时,除了面对面看到对方的面部表情外,还能够听见对方说
学位
基于RGB-D相机的即时定位与建图(Simultaneous Localization and Mapping,SLAM)技术是增强现实(Augmented Reality)的核心技术之一。然而,现有的RGB-D SLAM系统几乎只针对静态场景设计,当场景中出现动态物体时,现有系统的位姿估计会出现较大偏差,从而造成估计位姿的漂移。本文提出了一个能在动态场景中准确估计相机位姿的RGB-D SLAM系
学位