基于Twins-SVT模型的图像检索算法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:zhouxiaoqing1003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长期以来,图像检索方法一直是计算机视觉领域的研究热点。最近,Transformer模型在图像检索任务中取得了优于卷积神经网络的表现。然而,目前Transformer模型在图像检索任务中的相关研究极少,其潜力尚未得到充分挖掘。因此,本文基于Transformer模型中的Twins-SVT模型与深度度量学习框架,从模型结构、损失函数、检索流程三方面对深度图像检索方法展开研究,以提高检索精度。首先,本文提出一种注意力增强的Twins-SVT模型,引入注意力增强的Patch Embedding模块以替换Twins-SVT模型原有的Patch Embedding模块,从而提高模型局部建模能力,同时引入共性感知自注意力模块以学习数据集所有图像的共性,从而指导各图像产生表达能力更强的图像特征。CUB200-2011数据集与CARS196数据集上的实验表明,注意力增强的Twins-SVT模型能取得更优于其他Transformer模型的检索精度。其次,为更有效地训练注意力增强的Twins-SVT模型,本文提出一种Patch阈值多样性损失以联合对比损失对模型进行训练。Patch阈值多样性损失通过模型第四阶段产生的patch token序列计算所得,能促进该序列的token多样性并提高各token的表达能力。实验表明,在使用不同维度的图像特征、联合不同排序损失、训练不同Transformer模型时,Patch阈值多样性损失都能有效提高检索精度,充分体现其适用性与有效性。此外,与2018年以来取得state-of-the-art效果的一些方法相比,通过Patch阈值多样性损失联合对比损失进行训练,注意力增强的Twin-SVT模型能取得最高的检索精度,充分体现本文方法的有效性。最后,为进一步提高检索精度,本文提出一种基于注意力增强的Twins-SVT模型的图像重检索方法。查询图像与数据库任一图像首先分别通过模型提取patch token序列并通过全局平均值池化产生高效的图像特征。随后,查询图像与数据库任一图像通过池化图像特征计算相似度并排序,从而完成初检索。针对初检索返回的Top-K项池化特征的任一项,查询图像的patch token序列与之通过Look-at-Other注意力模块产生相应的Lat O特征,并与该项特征重新计算相似度,从而完成重排序。实验表明,基于注意力增强的Twins-SVT模型的图像重检索方法能通过牺牲少量检索效率,有效地提高检索精度。
其他文献
中国自1978年改革开放以来经历了快速的经济增长,极端贫困人口的数量大幅降低。随着脱贫攻坚取得了全面的胜利,以收入为单一指标的绝对贫困被消除后,中国开始面临着多维贫困的挑战。同时,对于我国居民来说,医疗需求的增加和疾病的经济风险不能仅仅依靠基本医疗保险来缓解。为了准确地衡量我国多维贫困状况,探寻补充医疗保险对我国多维贫困和多维返贫的影响效果,本文将由此深入展开,为完善我国补充医疗保险制度提供相关建
学位
时间序列异常检测旨在从时间序列数据中识别异常模式。长期以来,时间序列异常检测一直是一个重要的研究领域。随着时序中模态数量的增长,时序的复杂程度以及异常检测的难度都会逐步增大。本文针对三种不同复杂程度的数据类型,即单个模态、两个模态、多个模态(大于等于三个模态),依次提出了三种不同的时序异常检测框架,用于有效利用不同类型数据中的信息。针对单个模态数据集上时序的概念漂移问题,本文提出基于概念漂移检测的
学位
随着NAND闪存的持续性发展,得益于其高性能和大容量的表现,基于NAND闪存的固态硬盘(Solid State Drives,SSDs)已经成为了主流的存储介质。随着制造工艺的发展和削减成本的需求,高密度和低成本的闪存介质占据了主流市场,它们可以在单个闪存存储单元中存储多个比特信息。但是该类高密度的闪存颗粒,存在I/O性能较差、擦写寿命更短等问题。为了调和容量与性能的矛盾,混合式SSD被发明出来。
学位
喀斯特石漠化是我国西南地区生态建设的重要屏障。由于人类不合理的开发利用,森林遭到破坏,植被恢复成为该区域的主要治理措施。研究喀斯特次生林物种多样性和地上生物量,能为喀斯特地区的植被恢复和保护提供一定的参考依据。本文以黔中普定县的植物群落为研究对象,利用2012、2015和2020年的样地监测数据,分析了8年间的群落结构组成、不同尺度下物种多样性和地上生物量的变化特征以及环境对两者的影响,研究结果如
学位
近年来,随着人口老龄化和亚健康人群的增多,2020年新型冠状病毒全球爆发,国内医院和医疗机构对医疗器械的需求逐年增加。各大医疗器械研发和生产公司扩大了器械生产规模。笔者公司的传统医疗器械服务平台采用单体式架构搭建,出现功能耦合度高、性能下降、开发和测试周期长等问题。同时,当系统面临在线提货、器械安装和维修等高并发业务场景时,经常出现系统停机,严重影响用户体验和公司业务运作。本文作者设计实现的基于微
学位
近年来包括香港资本市场在内的海外资本市场持续疲软,相较之下境内资本市场正在蓬勃发展阶段,因此随着分拆上市相关制度的不断完善,越来越多的在港公司倾向于通过分拆子公司上市的方式回归境内A股市场并享受发展红利。港股分拆回A股作为新兴的资本市场热点话题日益受到关注。本文以港股母公司微创医疗分拆旗下子公司心脉医疗至境内科创板上市为案例对分拆上市的绩效影响进行研究。在对案例公司所处行业以及母子公司基本情况进行
学位
异构分布式系统中计算应用的调度长度最优化问题备受关注。囿于通信网络的带宽及传输速度等限制,通信开销对调度长度的影响不容忽视,通过减少通信开销优化调度长度是研究的焦点之一。为尽量减少通信开销,基于任务复制的各类调度算法应运而生,其可以通过额外的计算开销来减少通信开销,并取得了极好的效果。然而,任务复制的引入会使调度问题更加难以求解,如何在使用任务复制提供高质量调度方案的同时,减少求解时间是当前面临的
学位
图像超分辨旨在从退化的低分辨图像重建出更多高分辨细节。随着双目成像技术的发展,双目图像已广泛应用于深度估计、虚拟现实与自动驾驶等领域。相较于单图超分辨,双目图像在由视差引起的极线约束下高度对称,因此可以利用左右视图间的互补信息进一步提升超分辨效果。近年来,研究人员已将深度学习成功应用于双目图像超分辨,其中多数方法利用视差先验获取图像间匹配信息,取得了卓越的性能,但也存在部分问题:1)对两视图特征的
学位
序列推荐是推荐系统研究的一个重要分支。现有的序列推荐方法未能够有效地利用交互数据中的关联信息和属性信息。针对关联信息的利用,现有方法忽视了序列中物品间的时间间隔和共现频率对于物品关系的影响。针对属性信息的利用,现有方法忽视了物品间公共属性对于物品关系的影响并且没有对同一物品的不同属性进行区分。为了解决上述问题,本文提出的序列推荐模型采用图神经网络去有效利用上述两类信息。本文首先提出了一种融合关联信
学位
在文化产业和旅游业呈现融合发展的趋势下,文旅融合下的文创产品设计也越来越受到重视,优秀的设计能将景点的文化元素,巧妙结合到游客和消费者的使用需求和旅游体验中,不仅能促进当地的文化传播,也能带来经济收益。本文的文创产品设计是在文旅融合的背景下,为河南商丘“虞城唐宋影视城”所进行的产品开发设计。首先通过“虞城唐宋影视城”文旅资源的挖掘,归纳出虞城唐宋影视城的建筑风格、影视历史、地域传说等方面的文旅资源
学位