基于深度度量学习的半监督小样本分类研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:jc622
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前深度学习已经在多个领域中获得了令人瞩目的成就,但深度学习的成功往往依赖于大规模有标注的数据集,这不仅限制了其在特定领域的应用,也与人类能够从少量样本中快速建立概念有较大差距。小样本分类旨在通过少量有标注样本学习出有效的模型,能够对新类进行识别。而半监督条件下的小样本分类则是对当前小样本研究的进一步拓展,半监督条件一方面更加贴近人类对于事物类别的认知方式,另一方面在实际应用中无标记的数据的收集往往是廉价易得的。半监督条件为小样本分类带来了挑战也带来了机遇,本文主要对半监督条件下的基于度量的小样本分类模型和算法进行了研究。在本文的研究工作中提出了一个渐进式的点到集合的小样本分类模型,该模型以局部特征代替全局特征来描述样本,以某个类别所有样本的局部特征作为该类的局部特征集合,再从查询样本的局部特征出发,定义了点到集合的度量方式,将距离的总和作为样本到类别的距离。在半监督条件下探索了全局的和局部的伪标签方法,并在实验部分对比了两种半监督方法,同时将本文提出的半监督小样本模型与其他的半监督小样本模型进行了比较,在mini Image Net数据集上得到了当时最先进的分类准确度。在第二个研究工作中,本文探索了特征的高阶统计信息与小样本学习的结合,以特征图的协方差平方根作为样本的高阶特征,使用牛顿-舒尔茨迭代法使得模型的训练适合于GPU上的并行,从理论上分析了协方差平方根之间的欧氏距离是对黎曼流形上距离的近似估计,以高阶特征与基于欧氏距离的原型的结合作为本文提出的高阶小样本模型。为了提升半监督条件下对无标记数据的利用,本文在元训练阶段加入了在无标记数据上的一致性损失,与常规的分类损失一同作用于模型的训练过程,同时采用伪标机制来扩充支撑集得到改进后的类别原型对查询样本进行分类。在实验阶段,论文展示了高阶特征,一致性损失以及伪标签机制对于半监督小样本分类的意义。
其他文献
木质素储量丰富、来源广泛且廉价易得,在生产、生活中拥有重要的应用价值。通过一定的催化反应,打破木质素原有长链结构,将其高效转化为苯、苯酚等高附加值小分子化学品,一直是生物质能源领域的研讨热点。本论文聚焦于MoS2催化剂,通过添加铌酸助剂改变其物理化学性质以提升其催化性能,考察铌酸修饰二硫化钼催化剂在木质素模型化合物制芳香化合物反应上的加氢脱氧性能。论文工作首先采用一步水热法合成了一系列H4Nb2O
学位
生物酶催化是指以酶为催化剂进行物质合成与转化的绿色催化过程。自然界存在多种涉及二氧化碳(CO2)转化的生物酶,可在温和条件下实现碳氧双键的精准活化,为碳资源高效利用提供了一条理想途径。应用过程中,固定化酶常常作为一种提升酶稳定性的策略,但固定化酶载体往往会导致催化过程内、外扩散阻力增加,酶表观活力下降。本论文通过耦合MOFs固定化酶策略与Pickering乳化技术,构建了基于CA@ZIFs的Pic
学位
三氯生(Triclosan,TCS)广泛存在于水体和土壤环境中难以去除,并对人类健康和生态环境造成了长期的危害。植物作为环境中的重要生物介质,影响着TCS的环境行为与归趋模式,TCS对植物的生态毒理效应也越来越成为抗逆研究的热门领域。植物内源信号分子水杨酸(Salicylic acid,SA)广泛参与植物对各种生物和非生物胁迫的抗逆反应,能通过水杨酸羧基甲基转移酶(Salicylic acid c
学位
口语理解是对话系统中的重要组成部分,负责将用户输入的文字信息转换成计算机所能理解的结构化语义信息。在本研究中,主要围绕对话行为识别、意图理解和槽填充三个子任务展开,以双注意力机制为基础解决目前子任务中存在的问题。双注意力机制主要包括两个注意力编码分支结构,通过对双分支进行联合训练获取额外的句子特征,能够有效利用和交换双分支结构中特征信息,提高模型鲁棒性。首先,对话行为识别任务中数据不平衡问题比较突
学位
随着移动互联网技术的全面发展,社交媒体(例如:微博、Twitter、抖音等)依靠其独有的便捷性和服务已经成为促进人与人交流,获取和传播新闻资讯,分享意见和观点的重要平台。然而当热点事件发生时,数百万的用户短时间内会产生大量嘈杂简短的信息,因此如何从社交媒体数据中快速获取想要的内容至关重要,对社交舆情监控、危机预警具有重要意义。旨在从特定事件找到一组代表性帖子,生成简洁的摘要,以揭示给定热点事件中大
学位
汞及其化合物具有强烈的神经毒性,可以通过水生食物链富集,对高营养级水生生物和人类健康产生威胁。在全球汞循环中,大气是最重要的传输途径。大气中汞的存在形式有气态元素汞(Gaseous Elemental Mercury,GEM)、活性气态汞(Reactive Gaseous Mercury,RGM)和颗粒态汞(Particle-bound Mercury,PBM)。不同形态的汞具有不同的物理化学性质
学位
沿海地区经济的快速发展,使得土地资源的需求量不断增加。但随着工业的发展,滨海盐碱地区土壤重金属污染现象日益严重,这不仅降低了土地利用率,对城市环境也会产生不良影响。因此滨海重盐碱地区重金属的污染修复受到了广泛的关注,其中存在的盐碱成分又使得重金属的修复更具难度。根据研究发现,重金属的原位修复方法中,化学钝化方法以其便利性和实用性受到广泛应用。本文在实验室已有研究的基础上,探究新型重金属钝化剂——水
学位
尽管在过去的发展历程中,多视图学习领域取得了很大进步,但是由于很难对不同视图之间的复杂关联进行建模,这个问题仍然十分具有挑战性,尤其是在视图有缺失的情况下。为了应对这一挑战,本文提出了一个新颖的模型框架,旨在充分地、灵活地利用具有不同缺失模式的各个视图的数据。本文首先为多视图表示提供完备性和通用性的正式定义,然后从理论上证明了所学习的隐空间表示的通用性。对于完备性,通过模仿数据的信道传输理论,将学
学位
计算机视觉和自然语言处理是两个非常热门的研究方向,其中包括图像或视频的分类、检测、分割等视觉任务或是机器翻译、文本摘要、问答系统等自然语言任务,这些任务目前已有很多基于深度神经网络的模型。现实生活中,大部分时刻需要同时理解视觉和自然语言信息,因此,目前在两个领域结合的方向,涌现了很多新的任务:如视觉描述生成、文本图像生成等内容。这其中,视频问答任务近几年取得了飞速的发展,它要求模型输入视觉信息和问
学位
由于RDF图数据的急剧增长,传统的集中式数据处理已经不能满足当前需求,必须通过分布式集群来存储和处理大规模RDF图数据。RDF图数据的分布式存储面临的第一个问题即是RDF图划分。这就使得如何有效地划分大规模RDF图变得尤为重要。本文对现有的RDF图划分算法进行整理,将图划分算法分为3种类型,分别是多级图划分算法、流式图划分算法和分布式图划分算法,详细描述了其中的代表性算法。通过在合成数据集与真实数
学位