【摘 要】
:
图像语义分割作为计算机视觉领域的一个像素粒度核心研究问题,其目标是为输入图像的每一个像素预测一个预先定义的语义类别。图像语义分割作为当前诸多领域的关注重点,对医疗诊断、机器人感知、自动驾驶、视频监控、增强现实等真实应用领域的发展可以提供强有力的支持。当前的图像语义分割模型要想获得足够的分割精度需要大量带像素级标注的样本进行模型的训练。然而由于像素级标注的获取需要耗费大量的人力成本,这导致所需样本不
论文部分内容阅读
图像语义分割作为计算机视觉领域的一个像素粒度核心研究问题,其目标是为输入图像的每一个像素预测一个预先定义的语义类别。图像语义分割作为当前诸多领域的关注重点,对医疗诊断、机器人感知、自动驾驶、视频监控、增强现实等真实应用领域的发展可以提供强有力的支持。当前的图像语义分割模型要想获得足够的分割精度需要大量带像素级标注的样本进行模型的训练。然而由于像素级标注的获取需要耗费大量的人力成本,这导致所需样本不足,进而限制了图像语义分割的可拓展性。零样本学习则为解决这一问题开辟了一个方向,通过进行知识的迁移,零样本学习模型可以对从未见过的数据类别进行识别。目前对于零样本学习已经在图像分类、类别定义等方面取得可喜的进展,但在语义分割方面研究才刚刚开始。由于零样本学习不使用不可见类的数据,几乎不含指导性的信息,而图像语义分割任务相比图像分类等问题有着更高的难度,因此零样本图像语义分割面临更大的挑战和难度。为此,本文围绕基于深度学习的零样本图像语义分割中的关键和难点问题展开深入的研究,具体包括以下三个方面:(1)针对零样本语义分割中对不可见类信息的缺失,本文利用语义词嵌入作为语义表示,辅助网络将可见类别中学到的知识迁移到不可见类中,构建了一个具有知识迁移能力的端到端的语义分割模型,缓解了传统语义分割模型对像素级标注的需求。实验证明本方法在传统零样本语义分割设置下取得了与当前最优秀的算法相当的准确率。(2)针对零样本学习中可见类和不可见类在样本分布上的差异导致的投影偏移现象,本文首次将直推式方法引入零样本语义分割中,提出了偏置纠正方法。通过将不可见类权重转移至不可见类,提升投影空间的准确度,进而缓解了投影偏移现象。(3)针对零样本学习中不可见类没有带标注的样本导致的缺乏训练问题,本文在偏置纠正算法生成的模型基础上,对不可见类数据利用自训练方法生成伪标签加强训练,提升了模型对不可见类的训练程度。实验证明,利用了直推式方法的本文算法比现有算法在分割准确率上取得了大幅提高。
其他文献
推荐系统被广泛应用于互联网的各个领域中,用来解决当前时代信息过载的问题。它不仅可以帮助用户快速筛选出感兴趣的内容,也为互联网公司创造出了巨大的商业价值。针对用户进行分析是个性化推荐系统的基础和前置工作。基于对某个用户的分析可以发现这个用户对不同物品感兴趣的程度。用户、物品和其他一些附属信息,比如标签信息、物品种类,共同组成了一个异构的信息网络。一般情况下,推荐算法会直接把用户描述为显式或隐式的评分
不断发展的传感、计算和通信技术驱动着信息物理系统和物联网深入到了社会的各个领域,如智能工业过程、智能电网和智能交通等。在工业控制领域,传统的基于可编程逻辑控制器或微控制器的控制系统面临着计算能力较弱、交互能力较差等问题,而随着边缘计算模式的出现和应用,为工业控制系统中智能和复杂控制方法如基于迭代的最优和鲁棒控制方法、模型预测控制等的应用提供了新的思路。本文以工业温度场控制为场景,尝试将边缘计算与控
如今,机器学习已经成功地应用于信息检索、数据挖掘以及计算机语音识别等多个领域。但是,由于其功能和工作机制上的复杂性,实际应用与学习中大多数用户将机器学习模型视为黑匣子,且高性能模型的开发需要耗时的、反复的试验过程。所以,对机器学习的可解释性进行研究探索是一个很重要的命题。学术研究人员需要更加透明和可解释的系统,以更好地理解和分析机器学习模型。可视化分析是将数据转换成富有信息的视图的新兴技术,它利用
如今,卷积神经网络已成为深度学习中的主流模型之一,它在计算机视觉、自然语言处理等任务中具有显著的性能表现。卷积神经网络具有平移等变性,即对输入的平移等效于对输出的平移。然而,对于其他非平移变换,如旋转、放缩,卷积神经网络并不具有等变性。为了解决上述问题,群等变性卷积神经网络由此提出。此外,为了处理非欧几里得空间(如球面)中的图像数据,人们提出了适用于球面流形的球面等变性卷积神经网络。然而,现有的等
自动驾驶可以有效缓解交通安全事故,提高交通运输效率,极大的改善现有交通环境。同时自动驾驶的落地也是国家新基建的重要组成部分,因此相关技术的发展有着重要的现实意义。目前自动驾驶方案大致分为两种,基于规则的方案需要人工设计环境感知算法,并结合高清地图完成车辆定位、路径规划、决策控制等一系列算法完成。整个系统设计复杂、成本高昂,由于各场景之前还存在边界模糊,所以整个系统并不是完全可观。基于端到端的自动驾
呼吸音在肺部疾病的预防和诊断中起着至关重要的作用。针对呼吸音进行听诊是筛查和诊断肺部疾病的主要方式之一。然而传统的听诊需要专业的医生来进行,在医疗资源日益紧缺的社会中,更加需要一种自动诊断系统来帮助人们缓解医疗资源不足的压力。深度神经网络在解决这类问题上具有很大的潜力,然而,训练一个有效果的深度神经网络需要大量的数据作为基础,最大的呼吸数据集ICBHI只有900多条呼吸音音频,这对于训练一个深度神
在经济科技越来越发达的今天,各个国家之间联系变的更加的紧密,海洋运输是国际间进行交流的主要方式之一。伴随着航运业的发展,海上交通事故时有发生。因此,对于船舶航行轨迹的研究变的愈发重要,通过轨迹研究,可以对船舶所处的航线进行分析,对船舶的航行状态、目的地等进行监控,及时的发现船舶出现的异常轨迹,保障海上交通的安全。本文基于自动识别系统(Automatic Identification System,
近年来基于卷积神经网络的机器学习技术在社会生产发展与人们日常生活得到了越来越广泛的应用,在图像分类、目标检测、语音识别、自然语言处理等任务上发展尤为突出。不幸的是,神经网络对很容易受到对抗样本的攻击。对抗样本是一种通过在干净的原始数据上添加专门设计的的微小噪声,使神经网络模型做出错误判断的人造样本。对抗样本的存在对人工智能安全造成了极大的威胁。神经网络模型技术在安全敏感领域(如自动驾驶)的落地无法
在当代,医学成像主要依赖高科技成像设备,医生主要通过医学图像,对病人进行疾病的诊断。因此对医学图像进行超分辨率重建,提升医学图像的分辨率具有重要的现实意义。本文聚焦于医学图像领域,应用深度学习的技术,对医学CT图像进行超分辨率重建,旨在提高CT医疗图像的重建像素质量,辅助医生进行病变目标的检测,减少漏诊和误诊的概率。医学影像受困于成像原理,成像设备,以及病人安全等硬件条件的限制,图像分辨率往往不如
随着移动互联网的快速发展,导航系统被广泛地应用于日常生活之中。现有的导航应用程序大部分提供的是逐步导航技术,其主要来自基础道路的网络拓扑信息,因此逐步导航被认为是将物理世界中的度量简化为简单口语描述的工具(例如距离、时间、转向等信息)。这种导航描述方式忽略了人们对地理空间的固有认知,对于那些了解城市布局的司机来说,往往是冗长和复杂的。这样不仅使得驾驶员对导航描述更为模糊,还占用了大量的终端资源。而