【摘 要】
:
三维重建是计算机视觉领域重要的研究方向之一,在文物保护、虚拟现实、机器人与自动驾驶等领域都有着广泛的应用。近年来,三维重建领域得到了快速发展,但三维重建模型仍有缺陷。受遮挡和距离传感器等内在因素影响,三维重建模型存在不同程度的缺失情况,因此引入三维补全进行修复。三维补全是三维重建领域中的一个重要研究方向。传统补全方法通过挖掘几何线索或匹配数据库模型实现补全,依赖于先验知识或数据库容量。深度学习方法
论文部分内容阅读
三维重建是计算机视觉领域重要的研究方向之一,在文物保护、虚拟现实、机器人与自动驾驶等领域都有着广泛的应用。近年来,三维重建领域得到了快速发展,但三维重建模型仍有缺陷。受遮挡和距离传感器等内在因素影响,三维重建模型存在不同程度的缺失情况,因此引入三维补全进行修复。三维补全是三维重建领域中的一个重要研究方向。传统补全方法通过挖掘几何线索或匹配数据库模型实现补全,依赖于先验知识或数据库容量。深度学习方法虽然具有强大的预测能力,但场景点云补全领域的研究仍有缺失。针对室内场景点云补全研究,分析其存在的研究难点。一方面,考虑到单视角图像视野范围小,多视角图像采集费时费力,本文创新性地采用全景图作为输入,但全景图的引入会引起视点受限、生成的初始点云分布不均、场景点云难以补全等难题。另一方面,由于场景点云规模大,且点云分布不均匀、不规则、排列无序,直接通过神经网络预测的难度非常大。针对以上难点,本文基于全景图分别从间接和直接两种不同的方式处理场景点云,从而实现室内场景点云补全任务。本文的第一项工作从间接方式出发,提出了基于深度图补全的室内场景点云补全方法。该方法将三维点云补全问题转化为二维深度图补全问题,同时借助体素补全引导视角选取,借助深度图补全新增有效信息,从而实现了场景点云完整且精细化的建模。网络整合了视角选取模块和场景补全模块,采用先单独训练,后联合训练的方式,在对比实验中取得优势,证实了该方法的有效性,同时为后续研究奠定基础。本文的第二项工作从直接方式出发,提出了基于自监督学习的室内场景点云补全方法,有效克服了第一项工作中真实场景的真值点云难以获取,间接方式受限于体素补全和深度图补全效果的局限性。该方法通过模拟真实场景遮挡,构造了数据集的生成方法。网络整合了特征提取模块和场景补全模块,实现了大规模场景点云特征的有效提取和利用,以及基于Transformer架构的场景点云补全。该方法采用端到端的训练方式,最后实现了通过神经网络直接整体补全大规模场景点云的效果。最后,本文对提出的两种室内场景点云补全方法做出总结,分析了创新性和不足,并提出了可能的几个未来发展方向。
其他文献
近年来,行人检测在计算机视觉任务上已取得重大进展。目前大多数行人检测方法都基于深度学习框架,采用深度卷积神经网络(Convolution Neural Network,CNN)来提取特征。然而,CNN中的卷积属于局部操作,主要针对局部图像获取局部信息,无法提取图像的全局信息,并且依赖下采样来获得高级语义特征,不能选择性地关注重要的通道和特定的空间位置,导致检测器的性能受限。此外,实际行人检测场景通
脉冲神经网络,作为第三代神经网络,具有时间连续性、高能效、快速处理和生物合理性等特点,近年来逐渐应用在机器人领域。导航避障任务对于机器人来说是一项最基础且最重要的功能,但如何设计出高效且生物可解释的移动机器人复杂场景下的避障与导航算法是一项重要的研究问题。大多数方法通过人工设计的脉冲模型在大量的数据集中不断训练来实现固定场景下的避障与导航功能。但这些方法面临着如下问题:第一,脉冲模型的训练需要大量
长非编码核糖核酸(long noncoding RNA,lnc RNA)作为具有代表性的一类非编码核糖核酸(non-coding RNA,nc RNA),通常被认为不具备编码蛋白的能力。然而,最近研究发现,部分lnc RNA含有不超过300个核苷酸的小开放阅读框(small open reading frames,s ORFs)具有编码小肽的能力,打破了人们对nc RNA不能编码的传统认知,且在后
遥感图像的三维建模及渲染方法是地理信息技术、数字图像处理、人工智能和计算机图形学等领域的热点研究之一,其在地质研究、国土资源监测、城市建设等诸多领域有着不可替代的作用。随着近年来大规模开放世界、数字孪生城市和元宇宙等前沿研究概念的提出和发展,业界对高效率、高质量、迭代速度快、泛用性强的三维遥感图像建模方法和渲染方法的需求日益迫切。为了解决这一问题,本文将三维过程化内容生成(3D Procedura
近些年,深度学习技术的迭代发展促使生产生活愈发智能化。在人机交互、安全监控、体育训练等多个领域内,动作识别技术有着极大的社会需求和发展前景。动作识别任务包括针对如视频模态、骨架模态等不同输入数据模态的子任务。相较于视频模态等其他数据模态,骨架模态可以避免背景信息的干扰,近年来,图卷积理论的提出与完善促进了骨架序列动作识别技术的发展。然而,现有基于图卷积的骨架序列动作识别方法仍存在局限性。本文从网络
图像抠取(Image Matting)是指从一张任意输入的图像中精细地抠取出用户所感兴趣的前景物体,该前景可以为人、动物、植物或网状等类别。被抠取的前景可以被多个应用领域所使用,譬如:绿幕电影拍摄及制作、虚拟现实(Virtual Reality)和增强现实(Augmented Reality)、在线会议背景替换、网络主播换装等。随着大数据时代的到来,海量的互联网数据对图像抠取算法带来了一系列新的挑
数据检索是机器学习中重要的研究领域。机器学习算法对数据潜在信息挖掘能力的提升,以及提取的表征对数据相似性可衡量能力的增强,对检索任务而言有着非常重要的研究意义。凭借执行效率高和存储空间低的特点,哈希学习在检索领域中被广泛地研究和应用。哈希学习方法将高维原始空间的数据进行降维处理和编码操作,并映射成短小紧凑的二进制向量。该短小的编码在保持数据间相似性关系的同时,不但提升了检索效率,而且降低了数据存储
随着社交媒体平台的发展,互联网极大地拓展了人与人之间交流沟通的渠道。海量的对话文本在网络上不断地被发布、传播和共享,其中蕴藏了大量用户的主观感受与情感倾向,需借助人工智能等技术进行分析与挖掘。对话情感分析任务为在对话场景下分析语段的情感极性或情绪类别,因对话具有多样的表达方式、复杂的逻辑结构和耦合的情绪因素,使得该任务成为文本情感分析领域的研究热点。本文按短对话到长对话、单标签至多标签的逻辑逐步深
生物医学是一门前沿交叉学科,与人类的健康和生命息息相关。近年来,生物医学领域的电子期刊和文献数量飞速增长,用生物医学文本挖掘技术自动发现隐藏在这些非结构化数据中的领域知识是本领域进一步发展的关键。文档级生物医学关系抽取作为生物医学文本挖掘的一个重要分支,旨在从非结构化的生物医学文档中自动地抽取出存在的关系事实。目前,基于深度学习的方法是处理文档级生物医学关系抽取的常用方法。一方面,在文档级生物医学
在生物医学领域,数量庞大的医学文献逐渐构成了一个丰富的知识宝库,医学文献作为一种重要的知识来源为相关研究者们提供了重要的医学信息,有助于临床诊断、医疗问答系统等相关研究的发展。但是由于数据的增长是十分迅猛的,因此如何准确地从生物医学文献中自动提取信息,如何有效地将非结构化文本数据转换成结构化数据,成为生物医学自然语言处理领域研究的重要方向。本文旨在利用文本分类技术和关系抽取技术对生物医学领域的文本