【摘 要】
:
细粒度图像识别研究近年来逐渐兴起,在无人零售、智慧交通、人机交互等方面具有广泛应用。本文就transformer在细粒度图像识别领域存在空间特征提取粒度过于粗糙及模型参数过大存在计算冗余两大弊端分别展开研究,一方面,进一步细化transformer的特征提取粒度,另一方面,在保持理想识别精度的情况下压缩其参数量、去除冗余计算,便于实际应用。本文的主要的研究内容及技术创新如下:第一,针对原始tran
论文部分内容阅读
细粒度图像识别研究近年来逐渐兴起,在无人零售、智慧交通、人机交互等方面具有广泛应用。本文就transformer在细粒度图像识别领域存在空间特征提取粒度过于粗糙及模型参数过大存在计算冗余两大弊端分别展开研究,一方面,进一步细化transformer的特征提取粒度,另一方面,在保持理想识别精度的情况下压缩其参数量、去除冗余计算,便于实际应用。本文的主要的研究内容及技术创新如下:第一,针对原始transformer模型特征提取粒度过于粗糙的问题。本文设计了一种新的基于深层聚合掩码的transformer细粒度图像识别算法,该算法由深层聚合掩码生成模块DLAM及视觉transformer构成。通过DLAM对图像不同尺度的语义及空间信息进行融合,生成与原图尺寸相同的掩码,作用于原图后送入后续transformer进行识别。该网络在有效细化transformer架构空间特征提取粒度的同时,不改变其预处理时划分图像片的大小及数量。模型在CUB-200-2011、Stanford Dogs及NABirds数据集的识别精度相较于原始视觉transformer有了显著提升,可视化分析结果也进一步印证了本算法的合理性及有效性。第二,针对现有transformer在细粒度图像识别任务中存在计算冗余及参数量过大的问题:本文对transformer原有结构进行改进,设计了一种基于权值矩阵压缩及可调前馈通道剪枝的压缩transformer模型。主要的贡献有以下几个方面:1.设计了一种transformer权值矩阵压缩方法:改变transformer自注意机制内部查询矩阵Q及键值矩阵K的映射方式,有效降低其架构内部的冗余计算。2.对transformer的前馈通道进行修剪率可调的剪枝操作:通过设置通道置信分数,去除不重要的前馈通道,使得剪枝后的模型参数大大减少。3.提出基于知识蒸馏的训练策略:设计预测软目标蒸馏损失、transformer层蒸馏损失,与交叉熵损失共同优化网络,使得压缩后的模型在参数量减少的情况下,保持其泛化及推理能力。4.设计细致合理的消融实验:分别对比了权值矩阵压缩前后及加入前馈通道修剪率分别为20%、40%、50%、60%的操作时模型在CUB-200-2011、Stanford Dogs及NABirds数据集上识别精度、参数量、以及计算量的变化情况。实验结果也证明了该压缩transformer模型的可行性及合理性。
其他文献
基于快速搜索和发现密度峰值的聚类算法(Clustering by Fast Search and Find of Density Peaks,DPC)被提出以来,由于其思想简单,所需参数少,聚类高效等优点被广泛应用。然而,随着对DPC算法的深入研究,一些问题和不足也逐渐暴露出来:截断阈值(9((8)难以确定、聚类中心难以准确选择、样本划分易导致连带错误、对具有复杂流形结构、类簇之间密度差异较大数据
近年来,因为人类的步态即使在远距离低分辨率下也具有很强的辨别能力,所以步态识别越来越受到人们的关注。但不同视角下行人的步态图像序列差异较大,因此步态识别的性能易受到视角变化的影响,影响最终的识别率。针对这一问题现有的算法主要分为以下三类:步态能量表征模板、提取视角不变性特征、学习不同视角下的映射关系。而本文提出了利用图卷积网络来解决由视角差异引起的识别率低的问题。本文的主要工作和创新点如下:(1)
复杂网络领域中,链路预测是其中一个关键的研究方向。链路预测就是根据网络的已知拓扑信息去预测网络中丢失的连边、潜在的连边或在未来某一时刻将会出现的连边,甚至可以找出网络数据集中错误的连边信息。目前,科学家针对链路预测问题提出了不同的算法。基于节点相似性算法分为基于局部信息的相似性算法和基于全局信息的相似性算法,局部相似性指标使用网络中局部邻居和结构信息进行相似性大小预测,计算复杂度低,准确度低;全局
遥感图像语义分割旨在为遥感图像中的每一个像素点都分配相应的类别。目前基于深度学习的遥感图像语义分割已经在军事、地质、城市规划等领域出现了许多成功的应用案例,然而随着遥感图像应用范围不断扩大,给遥感图像的语义分割任务带来了许多新的难题,因此它仍是一项具有挑战性的任务,表现在:第一,遥感图像中的各类地物尺寸各异,尺度差异较大,若要准确地对地物目标的类别进行预测以及完整地对地物目标的边界进行分割,需要提
三维目标检测是自动驾驶环境感知中的关键技术,可以为安全可靠的自主驾驶提供基础。激光雷达和彩色(RGB)相机是自动驾驶汽车上最重要的两个传感器,分别获取点云和图像。点云包含精确的距离信息,但稀疏且无序,进行目标检测时,对低分辨率或遮挡目标检测困难,存在误检和漏检的情况。图像包含RGB色彩值,具有纹理和边界等细节信息,但是因为成像时近大远小的特点,以及距离信息的缺失,在三维目标检测任务中无法估计出目标
利用超分辨率算法获取高分辨红外图像是解决当前我国红外成像器件制造水平低导致成像效果差、成本高昂难以满足需求的一种有效途径。基于多视图像的超分辨率算法以其更好的成像性能成为研究热点,其中又以深度学习超分辨算法最受关注。然而,现有深度学习超分辨率算法训练时用的样本对对应的并非真实的红外图像降质过程,且忽略了高-低分辨率图像的相互配准问题,使得其在实际应用中效果不理想。针对这一问题,本文提出了一种基于自
由于科技的发展,高维数据迅速出现在各行各业。噪声、冗余特征也随之而来,这加大了数据处理的工作量和难度。因此,数据降维是必须的。由于可以保留原始的特征,特征选择成为了降维的更佳选择。近年来,无监督特征选择算法越来越多,并且都取得了不错的效果。但是这些算法仍存在一些问题,比如伪标签间的相互影响被忽略、数据间的链接信息没有被充分利用以及使用谱聚类时不能保证伪标签的非负性等。为了解决这些问题,本文提出了三
在数据挖掘中,数据不平衡是世界上普遍存在的问题。然而,对不平衡数据进行分类的问题在不同部门中不时增加。为了克服一些标准的不平衡数据技术无法准确平衡多数类和少数类的挑战,用于不平衡数据分类的基于增强的合成采样(ABS)被提出了。ABS方法连接特征并增加现有样本的样本数量以生成合成数据。本文的主要研究贡献为:(1)本论文通过建模将输入数据与训练好的特征串联起来,确定输入数据中特征之间的关系,得到训练样
事件相机是一种新型视觉传感器,模仿了生物视觉系统的成像机制,具有高动态范围、高时间分辨率、低数据冗余的特点,在军用及民用领域均有重要应用价值。事件相机只感知场景中的变化信息。当事件相机中某像素感受到光强的变化时,会触发一个表示光强变化信息的事件,该事件包含触发像素的坐标和触发时间信息。事件相机以事件流的形式输出数据,而非传统相机的灰度图像。事件流形式的数据表示方式为非结构化的,给面向事件相机的数据
高光谱成像作为遥感领域的重要分支,因其极高的光谱分辨率,在地物高精度分析方面具有着不可替代的优势,在国防建设与经济发展中的众多领域都有着极为广泛的应用。因此,高光谱图像的高精度分类已经成为高光谱图像处理中的重要课题。但是,在高光谱图像中,一些噪声与冗余波段对其传输与分析处理带来了困难,这使得高光谱波段选择的重要性越发凸显。深度学习的蓬勃发展展示了其强大的学习与表征能力,相关方法与高光谱处理领域的结