【摘 要】
:
随着信息技术的发展、社交网络的兴起和智能终端的普及,以图像为代表的多媒体数据正在爆炸式地增长,图像识别成为了一个具有挑战性的课题,并且受到了越来越多的关注与研究。尽管现有的基于卷积神经网络(Convolution Neural Network,CNN)的方法在图像识别领域取得了不错的效果,但是这些方法大都是在单目标图像上训练的,既没有充分学习多目标图像中不同对象之间的相关性,又没有充分考虑到多目标
【基金项目】
:
国家自然科学基金项目:面向图像暗数据的点亮与存储新技术研究(No.61902135)
论文部分内容阅读
随着信息技术的发展、社交网络的兴起和智能终端的普及,以图像为代表的多媒体数据正在爆炸式地增长,图像识别成为了一个具有挑战性的课题,并且受到了越来越多的关注与研究。尽管现有的基于卷积神经网络(Convolution Neural Network,CNN)的方法在图像识别领域取得了不错的效果,但是这些方法大都是在单目标图像上训练的,既没有充分学习多目标图像中不同对象之间的相关性,又没有充分考虑到多目标图像之间的相似性。因此,在多目标图像识别任务中,仍然存在如下亟待解决的问题:(1)在有监督条件下,未能高效融合图像特征与标签词向量,导致多目标图像分类模型的收敛速度慢;(2)在有监督条件下,未能将图像的全局标签相关性融入到图像的视觉一致性中,限制了多目标图像分类模型性能的提升;(3)在无监督条件下,未能充分学习多目标图像之间的相似性,限制了哈希码的质量,进而也影响了图像检索的性能。针对以上问题,主要研究内容和贡献如下:(1)为了解决多目标图像分类任务中,图像特征与标签词向量融合效率低的问题,提出了一种基于跨模态特征融合的快速多目标图像分类模型F-GCN。F-GCN主要包含图像特征提取模块、标签共现关系学习模块和跨模态特征融合模块。特征提取模块和标签共现关系学习模块分别使用CNN和图卷积网络(Graph Convolution Network,GCN)来提取图像的特征和标签的共现关系;跨模态特征融合模块改进了双线性多模态因子池化(Multi-modal Factorized Bilinear pooling,MFB)组件,高效地融合了来自不同模态的图像特征和标签词向量,不仅加速了模型的收敛而且提升了模型的图像分类性能。在MS-COCO和VOC2007这两个多目标图像数据集上的实验结果表明,相比于当前最优秀的多目标图像分类方法,F-GCN的收敛速度提高了至少11倍;除此之外,F-GCN在传统的图像分类评估指标上的结果也略高于当前的方法。(2)为了将图像的全局标签相关性融入到图像的视觉特征一致性中,将GCN与类激活映射(Class Activation Mapping,CAM)机制进行结合,提出了一种基于CAM的多目标图像分类模型G-CAM。G-CAM主要由图像特征提取模块和标签共现关系学习模块组成,其中前者使用一对权值共享的CNN网络来学习原始图像和风格变换之后的图像的特征图(feature maps)与特征向量,后者使用GCN来生成包含了不同目标之间的标签共现关系的加权分类器。G-CAM创造性地利用这种加权分类器替代原始的全连接分类层,有效地保持了不同风格图像的视觉一致性。在FLICKR25K,MS-COCO和NUS-WIDE这三个多目标图像数据集上的实验结果表明,相比于当前最优秀的多目标图像分类方法,G-CAM进一步提升了模型的图像分类性能,其mAP比当前的方法高出0.8%-1%。(3)为了解决无监督图像哈希算法未能充分学习多目标图像之间的相似性的问题,提出了一种基于节点表征的无监督深度图像哈希模型NRDH。NRDH主要由节点表征学习阶段和哈希函数学习阶段构成。在第一阶段中,NRDH将每一张图像视为一个节点,创新地设计了一种基于GCN的自编码器(GCN-based Auto Encoder),通过无监督的方式捕获节点与节点之间的关联关系并生成图像的表征信息。在第二个阶段,NRDH使用上述节点的表征信息作为监督信息来指导哈希函数的学习,并生成每一张图像的语义哈希码。在单目标的CIFAR-10数据集,以及多目标的MSCOCO和FLICKR25K数据集上的实验结果表明,NRDH在多目标图像数据集上效果更优,其m AP比当前无监督图像哈希方法高出0.5%-3%。
其他文献
随着科学技术的进步与发展,基于对空间技术的开发和利用,人们从空间获取的数据信息量呈几何倍增长,这对数据在传输过程中的传输速率与带宽提出了更高的要求。光无线通信作为一种新型的通信技术应运而生,可以轻松实现远距离、高速率的通信,适用于星间、星-地、水-空、空-地等不同场景之间的通信,应用前景十分广阔。然而光信号会受到随机介质的影响,湍流效应会使作为载波的激光束在传输信道中产生波前畸变,引起光束扩展和漂
构建综合能源系统从能源供应侧促进了能源的低碳利用,是实现我国“碳达峰”“碳中和”双碳目标的关键举措;发展新能源汽车从能源需求侧实现了石油燃料的清洁替代,是达成双碳目标的重要抓手。新能源汽车的规模化应用有利于构建交通与能源系统紧密融合、互联优势显著提升的新型互联形态下的综合能源系统。然而交通流与能量流建模时间尺度的不一致、交通模型的强非线性与高复杂度给构建交通与能源系统互联的综合能源系统协同规划方法
低维磁性材料因新奇的物理现象和量子效应备受凝聚态物理学家的关注。其中,准一维螺旋链材料T2V2O7(T=Ni、Co)呈现出经典的磁相变和分数磁化平台,可能是一种研究经典反铁磁体中的量子行为的模型材料。目前,还没有经典一维链中量子磁化平台的理论预言,这给理论研究带来挑战。本论文主要通过强磁场磁化、ESR、中子散射等手段研究准一维螺旋链T2V2O7的磁相变、磁激发,并结合第一性原理、精确对角化、量子蒙
皮肤伤口的延迟愈合或难以愈合严重地威胁着患者的生命健康,并成为社会医疗系统的一个重要挑战。本论文针对皮肤伤口容易感染、不易愈合等问题,开发了两种新型的基于细菌纤维素(BC)的多功能纳米复合水凝胶敷料,包括硒纳米颗粒修饰的多功能水凝胶敷料,以及MXene(Ti3C2Tx)负载的电活性水凝胶敷料,并提出了一种将电活性水凝胶敷料与电刺激耦合协同促进伤口愈合的方法。本论文主要围绕BC基多功能纳米复合水凝胶
目的:1、总结分析G11778A型Leber遗传性视神经病变(Leber hereditary optic neuropathy,LHON)的临床特征。2、观察并比较G11778A型、T14484C型和G3460A型Leber遗传性视神经病变患者在不同病程中的视网膜神经纤维层(retinal nerve fiber layer,RNFL)厚度。3、通过回顾性研究和临床随访研究,探索G11778A型
【目的】本研究针对当前医学科技的快速进步、国家药品谈判动态化趋势与非竞争性药品医保支付标准确定的现实需要,以非小细胞肺癌靶向药物谈判机制构建与医保目录准入为例,旨在为国家药品谈判中谈判依据的确立及谈判机制构建、高值非竞争性药品医保支付标准确定原则与方法提供依据,为国家谈判药品实施效果评价提供评价指标体系,为国家谈判药品医保管理策略提供政策制定参考。【方法】1.文献研究法。本研究在研究背景分析、非小
反常霍尔效应及其热电关联效应,反常能斯特效应和反常热霍尔效应,自发现以来一直是凝聚态物理学中重要的研究分支。磁性拓扑材料中反常横向效应与动量空间中非平庸的贝利曲率密切相关,这已在理论和实验研究工作中被广泛证实,然而这些反常横向效应之间的关系还缺乏系统性研究。本文以磁性拓扑材料Mn3Ge和Co2MnGa为研究主体,讨论了Mn3Ge中反常霍尔电导率与反常霍尔热导率之间的魏德曼-弗兰兹定律,探索了不同磁
第一部分糖尿病合并COVID-19患者临床、影像学特征及其短期不良结局的危险因素分析目的:糖尿病是新型冠状病毒肺炎(Coronavirus disease 2019,COVID-19)患者常见的基础疾病,与其临床不良预后相关。本研究旨在:1)分析糖尿病合并COVID-19患者临床特点、实验室检查资料及影像学特征;2)探讨糖尿病合并COVID-19患者发生院内并发症和死亡的可能危险因素。方法:回顾性
文字是人类最有影响力的发明之一。文字中包含的精确的高级语义信息有助于我们理解周围的世界。本文所研究的自然场景文字是指自然图像中的文字。文字经常出现在各种各样的场景中或者物体上,比如路牌、车牌、店铺招牌、商品、海报、证件等。由此产生了大量的基于文字识别的实际应用,如地理定位、车牌识别、门店招牌识别、证件识别等。自然场景文字识别不同于传统的文档文字识别,它拥有背景复杂、形状多样、排列方向灵活、字体丰富
研究背景和目的心力衰竭影响着全世界约4000万人,在世界范围内造成沉重的卫生负担。扩张型心肌病(dilated cardiomyopathy,DCM)在一般人群中发病率高达每250个人中就有1人,是心力衰竭的主要危险因素和主要常见病因,约占所有心力衰竭病例的36%~1。DCM定义为同时存在左心室增大和收缩功能障碍,排除高血压、心脏瓣膜病等原因,虽然较容易诊断,但疾病的原因远未明确2,3。DCM通常