【摘 要】
:
零样本学习是在可见类别图像与不可见类别图像没有交集条件下,通过学习可见类别图像信息,旨在将可见类别语义知识迁移到不可见类别,并完成对不可见类别图像进行识别的一种任务。为了建立可见类别图像与不可见类别图像的关联,需要借助类别的语义描述(例如文本描述或类别的属性信息)作为语义辅助信息。经典零样本学习方法是基于学习共享特征子空间的嵌入方法。近些年随着深度生成模型的快速发展,如何将深度生成模型应用到零样本
论文部分内容阅读
零样本学习是在可见类别图像与不可见类别图像没有交集条件下,通过学习可见类别图像信息,旨在将可见类别语义知识迁移到不可见类别,并完成对不可见类别图像进行识别的一种任务。为了建立可见类别图像与不可见类别图像的关联,需要借助类别的语义描述(例如文本描述或类别的属性信息)作为语义辅助信息。经典零样本学习方法是基于学习共享特征子空间的嵌入方法。近些年随着深度生成模型的快速发展,如何将深度生成模型应用到零样本学习并提高视觉样本的生成质量成为了零样本学习研究的热点问题,本文对基于深度生成模型的零样本学习做了系统的研究,主要包含以下研究:一、为了缓解语义信息到图像视觉特征映射的单一性,增强语义信息到视觉特征和视觉特征到语义信息双向映射的关联性,本文提出了一种基于Wassertein自动编码器生成模型的零样本学习方法(A Generative Model for Zero-Shot Learning via Wasserstein Auto-encoder,GWAE),GWAE模型将以下三种模块提供了框架:特征生成器模块、语义回归器模块、鉴别器模块。特征生成器模块负责语义→视觉映射,语义回归器模块负责视觉→语义映射,以及鉴别器模块负责评估真实图像特征和生成图像特征的真假。特征生成器和语义回归器形成对偶学习,可以保证视觉特征与语义特征的双向映射,有效缓解了视觉特征与语义信息域适应的问题。通过在四个标准数据集CUB,FLO,SUN,AWA2进行的大量实验,实验证明了GWAE模型的有效性。二、主流的研究工作聚焦于单一的语义信息(词向量或属性特征)作为辅助信息,本文认为词向量是属性特征的补充,词向量和属性特征两种语义信息对应着类别的两种视图,本文提出了一种多视图深度生成融合网络(Multi-view Deep Generative Fusion Network,GDFN)的零样本学习方法。GDFN模型使用属性特征和词向量通过生成模型为不可见类别图像合成视觉特征,并通过回归网络将视觉特征与语义特征进行匹配。GDFN模型采用词向量和属性特征两种视图的语义信息作为辅助信息,有效地弥补了语义空间的单一性。在四个标准数据上实验表明GDFN模型可以取得更好的分类效果。三、为了保证生成样本与真实样本及其语义信息具有高度的相关性,本文提出了一种原型对比网络(Contrastive Prototype Network,CPNet),原型网络学习类别的元表示,它抽象化每个类别中最具有语义信息的样本,生成网络通过添加语义特征和噪声来合成视觉特征,回归网络则将视觉特征映射到语义特征。通过对比元表示与质心的相似性,可以使CPNet模型更可靠的识别目标图像,而且还可以使CPNet模型训练更加稳定。在四个标准数据上进行的实验表明了CPNet模型的优越性。
其他文献
氮-空位(Nitrogen-Vacancy)色心是含氮金刚石中广泛存在的一种晶格缺陷,在室温环境下,NV色心具有优异的光学特性,同时具备自旋寿命较长、能够进行光学自旋态的初始化与读出、可相干微波自旋操控等优势,因此NV色心在微波磁场精密测量领域广泛应用。成像表征可实现空间场分布信息的获取,是对待测物体的目标信息的重构。不同于微型磁场探头、超导量子干涉仪(SQUID)等串行逐点扫描测量的方法,并行宽
互联网信息的爆炸性增长是当今时代蓬勃发展的标志。信息数据量增长速度之快已经大大超出了人们的接受范围,人们在面对广泛的,各种各样的信息时时常会感到无助。在搜索引擎不能满足人们日益增长需求的时候,推荐系统成为了满足用户选择的第一选择,对推荐算法的研究近年来一直受到了各领域的重视。经过不断的创新发展,协同过滤技术相较于其他推荐技术应用更加广泛。但随着互联网相关技术的革新,不断增加的用户和不断更新的物品对
婚丧嫁娶仪式研究一直是哈尼族文化研究的重要组成部分,通过对其研究可以洞悉哈尼族的宗教信仰、社会组织、精神世界及价值观等。而青棚作为一项寓于婚丧嫁娶仪式中的仪式,是哈尼族卡多人婚丧嫁娶活动中的重要组成部分,更加是哈尼族卡多人传统婚丧嫁娶的支撑。据文献记载,青棚在哈尼族卡多人生活中的应用渊源已久。因此,从婚丧嫁娶仪式入手,由表及里,由整体到部分至青棚,对进而充分的认识和理解哈尼族卡多人的社会文化,具有
各种材料诸如二维纳米材料、过渡金属化合物等,它们的电子结构特性决定了它们的应用前景。本论文以第一性原理为基础,对一些材料的电子结构与其构建的器件电学特性进行了计算与分析,主要工作如下:(1)基于第一性原理,采用VASP软件仿真计算了数种材料的电子结构,包括能带和态密度,并分析了相关材料的带结构与费米能级的关系,其中带隙最小的是Sb2Te3,仅为0.16e V,这样更有利于电子的传导。三种Bi系材料
影视人类学这一学科在我国发展已逾六十余年,经过不断摸索与前进,走向成熟。20世纪70年代,国际人类学表述危机,人类学的创作传统与范式受到了质疑,人们开始反思、探索人类学表述的更多可能,影视人类学也被反思热潮席卷,开始了新的实践。影视人类学在我国发展至今,已经从最初的科学实证发展到了现在的具有先锋意识的交互式实验影像。本文以关于奕车人的两个影像《生的狂欢》与《四季奕车》为案例,通过后期对影像的观看与
近些年,在我国各方面都飞速发展的大背景下,证券市场也变得活跃起来,并购作为资本市场上热门的商业行为,其形式多种多样,比如要约收购、协议收购以及杠杆并购等都成为企业并购经常选择的扩张手段。资本市场的飞速发展的同时,金融监管的制度也在不断的创新和发展,但是仍然存在因相关法律法规的不完善而导致的一些因信息不对称引起的中小投资者利益的损害。为了减少由于信息披露问题导致的广大投资者利益损害的问题,交易所问询
传统的数据存储领域,多依赖于可信的第三方服务商所提供的存储服务。这种中心化的存储方式存在着数据被篡改的风险和运营成本高的问题。区块链是一种结合密码学、分布式共识、链式数据结构等方法,可以在不依赖可信中心化的第三方机构的情况下,实现点对点交易和协作的技术。区块链的去中心化、安全可信等特点,对区块链应用至数据存储查询系统是十分有意义的。区块链的高冗余存储模式提高了系统的一致性,但同时也降低了系统的可扩
红外成像由于具有隐蔽性高、工作距离远、抗干扰能力强、工作时间长的特点,被广泛应用于军事、工业、农业、交通等领域。随着科技的发展,每天获得红外图像的数量呈几何式增长,仅凭人力对获取的红外图像进行处理已经力不从心,于是,许多红外图像处理算法应运而生。其中,红外小目标检测算法就是研究热点之一。红外小目标检测技术可以应用于设备验伤,医学筛查,无人驾驶辅助以及监测预警等多个方面,可以大大降低成本,节约人力物
“热美磋”是我国纳西族传统歌舞通常俗称"热热磋"或"窝热热"是纳西族原始歌舞的活化石。作为纳西族的丧葬性质的舞蹈,参与的人员多中老年男子早期去只在丧葬仪式和祭祀的期间演出,随着时代的推移而变迁已经逐渐演变成一种具有自娱性的传统民族和地方性的民间音乐和歌舞,它的形态和风格产生了巨大的改变,如今“热美磋”不再单纯的是一种丧葬的舞蹈,而是成为了一种可以提供社会大众娱乐的传统民族和地方性的民间舞蹈。纳西族
目前第五代移动通信系统(The Fifth Generation Wireless System,5G)已投入商用,毫米波技术因其宽频带、窄波束、低延时、高速率等特性可以满足5G的数据传输要求,成为研究热点。隧道环境是人们出行交通的重要场景,是一个狭长受限的空间,电波传播在隧道中会经历多次反射、透射、绕射,从而产生明显的多径衰落,且会出现波导效应。由于支持向量机(Support Vector Ma