【摘 要】
:
房间布局重建是计算机视觉领域重要的研究课题,在室内场景理解中发挥重要的作用。布局重建任务旨在定位墙角三维坐标,重建三维房间布局。全景图的视场角(FoV)为360°,与透视图相比具有全局上下文优势,可以为布局重建提供完整的几何结构信息。最近,利用深度神经网络对全景图进行三维布局重建已经取得了很大的进展。然而,目前很多算法首先定位墙与地板边界和墙与天花板边界,再经过后处理得到墙角来重建房间布局,这导致
论文部分内容阅读
房间布局重建是计算机视觉领域重要的研究课题,在室内场景理解中发挥重要的作用。布局重建任务旨在定位墙角三维坐标,重建三维房间布局。全景图的视场角(FoV)为360°,与透视图相比具有全局上下文优势,可以为布局重建提供完整的几何结构信息。最近,利用深度神经网络对全景图进行三维布局重建已经取得了很大的进展。然而,目前很多算法首先定位墙与地板边界和墙与天花板边界,再经过后处理得到墙角来重建房间布局,这导致预测结果冗余以及损失函数不能结合几何感知等限制。此外,最近研究大多使用双向长短期记忆网络(Bi-LSTM)来构建房间布局几何信息,但是Bi-LSTM不能很好地处理循环结构的全景特征序列,导致预测结果不连续。针对上述问题,本文对基于单张全景图的布局重建算法展开研究。主要研究内容如下:1.本文首次将房间布局表示为水平深度序列和一个房间高度值,并提出使用水平深度和房间高度组成的全向几何感知损失函数。同时,还提出使用墙面法向和法向梯度组成的平面几何感知损失函数来监督墙的平面特性和墙角的转折特性,进一步提高性能。2.本文提出一个有效的深度神经网络框架,其包含一个全景特征序列提取器和全景特征序列处理器。其中,特征序列处理器基于Transformer网络模型,由(移位)窗口模块和全局模块组成,增强局部和全局的几何关系。同时,针对循环结构的全景特征序列,提出对称的相对位置编码来增强Transformer在全景任务上的空间识别能力。此外,还提出一种通过添加遮挡检测而改进的后处理算法。3.在多个数据集上的实验表明,本文提出的损失函数和网络架构比目前大多数先进的算法取得更好的性能。消融实验验证了本文提出的各组件的有效性,包括房间布局表示、损失函数、网络结构、位置编码和后处理算法。
其他文献
光学三维检测技术有着广泛需求,面结构光检测技术被大量应用在视觉检测、质量检测、逆向工程、三维重构和SMT(表面贴装技术)贴片等诸多领域。随着计算机的发展,学者们对光学三维测量的研究越加地深入。本文研究基于结构光进行三维SMT贴片缺陷检测,主要研究相位计算方法、三维测量系统的标定技术、硬件平台的设计和三维SMT贴片缺陷检测。结构光系统标定是三维检测的前提步骤,在主动视觉技术中,通常需要对摄像头和投影
近年来,视频图像自动识别技术已经取得了显著的进步,人脸识别,车牌自动识别等视觉技术已经成为人们的日常,得到了非常广泛的应用,但是对于大多数用户来说,视频动作识别相对陌生,这与人民日益增长的安全需求相矛盾,所以基于监控场景的视频动作识别系统的普及也越来越迫切。本文的主要工作如下:(1)针对经典时空卷积网络(STGCN)对骨骼信息利用不足的问题,本文设计了一种基于多信息融合的残差时空图卷积网络。首先在
API接口是分层体系架构中一组事先定义好的函数,为确保系统各层级之间可以通过接口交互良好,接口需要进行详细测试。在实际接口测试工作中,常用的Jmeter、Python等测试程序,对于测试新手有一定难度,Postman则难以对测试用例进行统一管理。此外,这些测试工具均需要测试人员手动编写测试用例与脚本,并且在团队协作测试中难以实现资源共享,故需实现一个操作简单、功能全面的接口自动化测试系统来解决上述
水下无线传感器网络(Underwater Wireless Sensor Network-UWSN)作为一种全新的方式为人类获取水下世界信息、勘探水下资源提供了帮助,并成为了当前的研究热点。水下环境相较于陆地环境,具有更高的复杂性,包括链路质量较差、网络利用率较低、水下设备能量受限难以充电和易出现路由空洞。这是水下环境中的路由面临的一项重大挑战。提出并设计可靠高效的空洞避免算法及水下无线传感器网络
随着近几年“黑天鹅”事件的频发,居民收入和消费水平深受影响。为研究各省之间居民收入和消费水平状况,本文选取了全国31个省份(不包括港澳台)的居民消费水平和人均GDP的数据,通过描述性统计进行分析。研究得出了相关结论,并提出了针对性建议,以期助力我国经济高质量发展。
互联网时代使用深度学习技术保护个人隐私成为一种新的可行方案。在公共网络社交中,用户的声音特征、面貌特征保护主要依赖于通信软件的加密算法,在终端和链路中缺乏针对特定隐私的保护。论文针对现有语音识别、语音合成、声纹识别、信号处理等语音技术,提出一套基于语音技术保护用户身份隐私的安全通信方案。论文提出的方案分为本地端处理和服务端部署两个部分。在本地端综合信号处理和模型处理两种方法,对语音数据做声纹去识别
文本风格迁移是自然语言处理领域中一个前沿的细分领域,具有重要的研究和工业应用价值。本文在前人研究的基础上,通过对比发现以往模型的不足,进而找到本文的研究目标,即针对现有模型无法实现文本内容和风格保留的平衡的问题,以及现有模型往往只能针对一种语料库,无法对平行语料和非平行语料均做针对性优化的问题,展开了研究探索,本文提出了一种基于关键词和语法树的文本风格迁移模型,不仅解决了现有模型的上述两个问题,而
近些年由于互联网的快速发展,其在为我们提供便利的同时也到导致了“信息过载”的问题,而推荐系统就是为了在海量数据的情况下将用户感兴趣的物品快速准确地推荐给用户。近些年深度学习与流处理框架在推荐领域被广泛应用,相比于传统推荐模型,深度学习推荐模型表达能力更强。相比于传统的大数据处理框架,流处理框架能够更加及时地获取用户兴趣的实时变化,提升推荐系统推荐的实时性与准确性。目前的推荐系统存在以下几点问题:(
制造执行软件在生产制造中的作用越来越重要,如果发生质量问题,不仅会影响生产制造过程,而且会造成重大损失。未充分考虑软件设计阶段的可信性是产生软件质量问题的重要原因,软件可信性度量方法在保证软件质量方面受到广泛重视,为了提升软件质量,需要度量软件设计阶段的可信性。本文着重关注制造执行软件设计阶段的可信性,研究制造执行软件设计阶段性质与可信性之间的关系,构建制造执行软件设计阶段的可信性度量模型。本文研
十四五期间,在国家制定双碳目标的利好政策下,可再生能源发电方式逐渐在新型电力系统中占据核心地位,其中光伏发电被视为是整个可再生能源中最可靠的选择,各国也都对光伏产业发布了政策支持。随着各省光伏电站的投建和并网的规模逐渐增大,大多光伏电站都建立在环境恶劣的偏远地方,并且每个光伏电站都配置了一套独立的本地监控,仅能单独管控,且实际运维管理仍旧采用纸质+Excel电子表格的传统方式,存在数据统计困难等问