【摘 要】
:
相较于全监督语义分割,弱监督语义分割能仅利用图像级别的类别标注来预测图像中像素的类别,节省了大量的人力和时间的开销。目前的弱监督语义分割算法主要是一个三个步骤的过程,首先利用图像级标签训练一个分类网络、之后通过解析该分类网络的内部参数来生成伪标签、最后用利用伪标签训练一个端到端的语义分割网络。然而目前的算法还与全监督的语义分割算法之间有着较大的差异,导致这种差异的主要原因来自于三个方面:伪标签缺失
【基金项目】
:
国家自然科学基金创新研究群体基金(61621005); 国家自然科学基金重点项目(61836009); 国家自然科学基金重大研究计划(91438201、91438103,91838303); 国防科技173计划项目; 国家自然科学基金(U1701267、62076
论文部分内容阅读
相较于全监督语义分割,弱监督语义分割能仅利用图像级别的类别标注来预测图像中像素的类别,节省了大量的人力和时间的开销。目前的弱监督语义分割算法主要是一个三个步骤的过程,首先利用图像级标签训练一个分类网络、之后通过解析该分类网络的内部参数来生成伪标签、最后用利用伪标签训练一个端到端的语义分割网络。然而目前的算法还与全监督的语义分割算法之间有着较大的差异,导致这种差异的主要原因来自于三个方面:伪标签缺失重要的语义信息、伪标签中有较多的错误以及语义分割网络的特征提取能力不足。为了使得伪标签的语义信息更加完整,本文首先利用Transformer作为语义学习网络,并基于现有的对Transformer可解释性的工作,提出了一种基于Transformer类激活图表征的伪标签生成算法,来自适应地从分类网络中得到更完整的伪标签。最终实验表明,该算法在VOC 2012训练集上的伪标签精度达到了60.3%m Io U,并且经过语义分割网络的学习后在验证集达到了63.9%m Io U。之后为了提升伪标签的精度,本文基于自组织特征映射的机理,提出了一种基于类激活自组织特征映射网络的的伪标签优化算法,它能够利用类激活图的语义特征以及图像中的细节特征,通过引导神经元之间的竞争学习,精准地为物体边缘的像素进行类别的划分,从而减少物体边缘的误差,最终将伪标签精度提升至61.7%m Io U,并且语义分割网络的预测精度达到了66.0%m Io U。最后,本文提出了一种基于稀疏表征的弱监督语义分割网络来学习伪标签的语义特征,并在VOC 2012弱监督语义分割数据集上超过了许多先进的算法(67.6%m Io U)。更重要的是,该网络为语义分割领域带来了一种新的思路,由于Transformer在语义分割中对于细节特征的丢失比较严重,因此通过为CNNs和Transformer生成特定的输入特征来将二者的局部特征提取能力和语义特征提取能力相结合,最终实现了对图像中完整特征的学习与提取过程,并在三个语义分割数据集:PASCAL Context(55.99%m Io U)、Cityscapes(79.30%m Io U)、ADE20K(50.65%m Io U)上的性能超过了很多先进的语义分割模型,同时表现出了卓越的抗噪性能。
其他文献
随着科技的飞速发展,光谱成像技术日益精进,针对于高光谱图像的解译处理已成为遥感领域的研究热点之一。相较于其他传统成像方式,高光谱图像具有信息量大、光谱波段范围广、谱段分辨率高等特性。因此,其现已被广泛应用在地质监测、农业生产、环境评估以及军事侦察等多个领域。对于高光谱图像而言,可看作是由相同场景组成的三维立方体,其中每个维度的成像场景都与特定光谱波长相关。大量的光谱信息简化了地物类别之间的判别差异
人像摄影是一种热门的拍摄题材,然而在很多场景下,诸多不可控因素,如背景人物众多、背景繁杂等,都会导致成片效果不尽如人意。此外,静态的图像不能像视频或动图一样表达丰富的信息,如果能使目标人物在同一张照片中反复出现,就可以通过让目标人物摆出不同的姿势来表达丰富的信息。现有的方法大多通过Photo Shop等图像后期处理软件,人为判定背景人物并进行图像复制粘贴等处理达到上述特效效果。这种方法不仅操作费时
监控视频中异常事件检测旨在识别真实监控视频中出现的各种异常事件,并及时做出相应的处理,进而更好地维护社会公共安全。近年来,基于深度学习的监控视频中异常事件检测算法在提升模型检测性能上取得了较好的进展,但仍然存在监控视频中的时空冗余信息影响异常事件检测精度、正常事件和异常事件判别界限不清晰等问题。因此,监控视频中异常事件检测仍然是一项具有挑战性的课题。鉴于此,本文提出了基于记忆引导注意力的无监督异常
作为对地观测技术的重要组成部分,遥感图像分类已被广泛应用于国防和民生经济等领域。传统的图像分类算法难以准确描述高分辨遥感图像丰富的空间细节和语义信息,分类精度不高,难以满足下游任务中信息分析和情报提取的需求。近年来,以卷积神经网络为代表的深度学习技术,凭借其优秀的表征学习能力,为遥感图像分类任务带来了性能上的巨大提升;但在资源受限的终端,卷积神经网络的庞大参数和计算量为模型高效实时部署带来了巨大挑
互联网技术的高速发展将我们带入了一个全新的信息时代,信息化的时代里信息具有巨大的经济价值和战略价值,因此对于信息的保护变得至关重要。在诸如工业信息系统这样由信息驱动的系统中,任何机密的信息都不应该被不具备相应权限的用户(称入侵者)获得。非干涉性概念的提出就是为了避免系统内产生任何的信息泄露,防止入侵者获取系统内的机密信息。现有对非干涉性的研究还存在着一些局限性:一是大多数研究基于普通Petri网开
以学术时评的形式,围绕2022年卡塔尔世界杯的办赛特征和重要方面,把握世界足坛新格局新变化,触动体育学术研究与实践思路。透视卡塔尔世界杯吉祥物、开幕式、主题曲的文化传播特征,理解办赛文化的全球本土化模式,以全球化的表达方式,诉说本土化的文化主张。洞悉计算机技术辅助比赛判罚全覆盖,批判性思考人工智能应用的伦理风险。世界足坛新格局呈现兼收并蓄的历史性过程,未来强队将是技术足球、整体足球、科技足球的完美
近年来,国际足联腐败问题严重,引起各方重视。美国与瑞士采取联合行动抓捕多名国际足联官员,将国家司法介入国际足联腐败问题的议题推向高潮。肯·本辛格所著《红牌:美国如何成为世界上最大体育丑闻的吹哨人》一书详细披露了美国调查国际足联腐败案件的实践过程,并做了深入的理论分析。通过对该书的述评,着重探究司法介入国际足联腐败案的背景、贡献与走向。美国依据法律从最初的调查过程到委托瑞士警方抓捕、引渡至美国并最终
典型地海背景红外辐射传输特性的深入研究,对我国的军用、民用、遥感探测等领域均有着巨大的实用性和理论意义。军事方面,针对各种典型地表和海洋的红外辐射特性的探索,有助于提高探测器或武器在不同环境下适应度和目标甄别速度。从而快速和精准地进行对象识别与跟踪打击。在遥感领域,通过对比不同地表的红外辐射特性,可以提高检测效率、精准度,科学高效地预警灾害发生,保护人民财产安全并减少经济损失。在民用方面,通过实施
经典数字图像处理技术已经在日常生活中发挥了重要作用,例如商品识别、自助付款、车辆识别、刷脸解锁、刷脸支付和自动驾驶。然而图像数量的增长以及分辨率的提高给经典数字图像处理技术的存储和计算带来了严峻挑战。量子图像处理技术结合了量子计算与经典数字图像处理技术,利用量子叠加和量子纠缠等性质改善经典数字图像处理技术的计算效率和存储能力。按照图像初级处理到图像高级处理的顺序,本文依次研究了量子图像空间域滤波算
高架道路作为城市交通走廊具有十分重要的骨干作用,高架道路的交通异常和交通事故往往会诱增道路服务水平的恶化。对于高架道路异常以及事故风险等问题,以往的研究一般都是基于静态交通事故数据的统计分析,然而其在交通异常和交通事故实时检测的实时性相对较差,而且在道路交通事故风险评估上往往还需要更多的数据支撑。本文首先通过研究高架道路的交通异常、交通事故和交通状态的特征,然后提出了一系列深度学习的解决方法来实现