【摘 要】
:
小样本图像分类是指从几个简单的例子中学习视觉概念。人类能通过视觉中心充分利用几个样本的特征信息,也能在学习过程中学会学习。本文以元学习为基础,从特征提取和学会学习两个方面提高小样本分类的准确率。为了在小样本图像分类过程中能充分利用图像通道和空间特征的位置信息,本文提出特征交叉注意力方法,该方法首先沿着通道和空间维度全局池化生成特征信息,然后通道和空间特征分别与原有特征交叉使得具有相似特征的位置互相
论文部分内容阅读
小样本图像分类是指从几个简单的例子中学习视觉概念。人类能通过视觉中心充分利用几个样本的特征信息,也能在学习过程中学会学习。本文以元学习为基础,从特征提取和学会学习两个方面提高小样本分类的准确率。为了在小样本图像分类过程中能充分利用图像通道和空间特征的位置信息,本文提出特征交叉注意力方法,该方法首先沿着通道和空间维度全局池化生成特征信息,然后通道和空间特征分别与原有特征交叉使得具有相似特征的位置互相加强而忽略特征之间的距离,生成以突出显示目标对象信息的注意力相关特征图,最后通道与空间注意力相关特征相加生成融合了通道和空间关键信息的特征,使得提取的特征更具区分性。特征交叉注意力模块是可微模块,可以搭载在任何标准的神经网络架构中进行端到端的训练。本文将特征注意力模块嵌入原型网络和关系网络中,实验结果表明,该注意力模块能够有效提高图像特征的可分辨性。为改善元任务间模型对任务内样本关系约束造成的图像分类不准确的问题,本文提出基于原型孪生网络特征迁移方法,该方法包括原型孪生网络和小样本图像分类网络两个部分。原型孪生网络是首先通过给定几个任务,计算任务内支持集上每个类别的样本平均特征,然后使用余弦度量将查询集中的样本归类,生成预训练特征提取器。小样本图像分类网络使用原型孪生网络的权重作为初始化参数,使得模型充分利用图像样本的特征信息和元任务内图像样本的距离关系,生成小样本图像分类器,提高模型在新任务中的泛化能力。本文在小样本的标准数据集mini Image Net和tiered Image Net上验证了上述两种方法的有效性。
其他文献
图像生成,旨在使用机器学习或者深度学习方法生成满足用户需要的虚拟图像。目前主流的图像生成算法多数是文本到图像的生成,这类算法在简单语义结构下通常具备较好的表现能力。但是当文本描述中的语义结构较为复杂时,例如对象数量多,对象之间关系复杂等情况,生成的图像中对象轮廓不清晰,边界模糊,图像质量低。后续有工作为解决上述问题,提出了场景图到图像的生成模型,以图结构的数据作为输入,通过挖掘场景图中复杂的语义结
近年来,随着计算机大规模计算能力的提升和信息化时代的到来,人们对虚拟现实、增强现实、机器人操作等方面的需求提高,其中3D手部姿态估计发挥着重要作用。随着商用相机的普及和人工智能的快速发展,基于视觉的3D手部姿态与形状估计的研究越发深入,提出了许多手部姿态与形状估计方法,用于从图像输入中估计手部的3D姿态与形状。尽管这些方法取得了显著的进展,但在精度及姿态还原度方面还有待改善,尚需进行进一步的深入研
近年来,中国各级检察院、法院不断推动智慧司法建设,扩大司法领域信息化应用范围。同时,与日俱增的海量文书处理工作也对相关司法部门的信息系统提出了挑战。文本自动摘要是自然语言处理的一项重要任务和研究热点,目的是让机器能够自动地完成信息的选择、压缩以及抽象,并输出被人类所能理解的文本。文本自动摘要能够提高信息获取效率,和具体业务流程相结合,可以减轻用户的工作负担。因此,面向法律文本的摘要算法和应用研究,
近年来,随着全球定位技术和无线通信网络的快速发展,轨迹数据更易于被采集与使用,为城市交通规划、出行规律挖掘、兴趣点推荐等应用提供重要价值。但是,由于轨迹数据具有数据规模大、异频采样性、数据质量差等特性,直接影响了轨迹数据的挖掘效果和计算效率。为此,大规模轨迹数据的分析与处理一直属于学术界和工业界关注的焦点。在大规模轨迹数据的分析与处理中,轨迹相似性查询一直属于关键操作之一,是实现移动行为规律挖掘、
随着近年来智能手机的广泛使用与移动社交平台的流行,使得基于位置社交网络(Location-based Social Networks,LBSN)业务得到了快速的发展,其中包括了兴趣点(Point-of-interest,POI)推荐。POI推荐通过用户生成的签到历史,推测用户感兴趣的POI,在大量的POI候选集中个性化地预测用户下一个时刻将要访问的POI。这使得用户个性化出行体验得到了较好的提升。
超疏水微柱阵列具有特殊的水滴润湿性,能够应用于机翼防结冰、船舶航行减阻等领域,但其制备工艺仍存在制备成本高、制备设备要求高、工艺通用性低等不足之处,使得通用的变直径超疏水微柱阵列制备工艺相较于平整超疏水表面构建工艺更加难以运用于工程实践中,难以大规模推广。针对以上问题,本文提出了一种使用弯月面约束电化学3D打印方法制备变直径金属柱的制备工艺,在单次工艺中直接构建跨尺度的柱结构与柱阵列,实现宏微一体
随着科学技术的进步以及经济水平的提高,监控摄像机已经深入到社会各个角落,对社会稳定做出了巨大贡献。然而,数以万计的监控摄像机每天会产生不计其数的视频图像数据,并且监控视频中包含异常行为的片段或许不到万分之一,单靠人工的观察识别会浪费大量的时间,也容易遗漏重要的信息。如果计算机能自动识别出视频中每个人的行为,并对异常行为发出警报,将会节省大量的人力物力。因此,视频中的异常行为识别技术具有重要的研究意
现代安全防护领域多采用基于云计算的人工视频监控方法,在监测低概率出现的异常目标时,监控系统易出现由于视频信息冗余导致网络资源浪费、数据传输存在延迟以及人为失误导致检测质量下降等问题。边缘计算通过在网络边缘端对前端采集数据进行实时分析运算,可以有效减轻云端负载压力,提高系统响应实时性。同时随着深度学习技术尤其是目标检测算法迅猛发展,使得视频监控更加高效智能,有效缓解人工视频监控方法存在的缺陷。因此,
随着移动互联网的飞速发展,定位技术的进步,下一个位置预测已经成为了一项重要研究任务,这对于用户和商家具有重要意义。然而由于用户签到数据的稀疏性、相关特征的复杂关联,下一个位置预测存在巨大挑战。首先,现有下一个位置预测算法缺乏针对某一位置的具体行为模式分析,导致无法充分建模用户的历史行为模式及短距离出行模式。其次,现有模型使用的地理空间特征通常不包含公共交通特征,导致无法有效建模用户长距离出行模式。
幸福是指人类主观上产生的愉悦情绪。它是情感中的积极部分,影响着人们的生活质量。因此,理解人类幸福感是一项有意义的工作。本文主要讨论幸福感的两个方面(Agency/Sociality)。为了拓宽人们对幸福感的感知情况,本文在英文数据集Happy DB和中文数据集Weibo DB上分别对幸福感展开研究。为了分析幸福感的Agency和Sociality方面,在Happy DB数据集上,本文提出了一种基于