【摘 要】
:
检索任务一直都是学术界和工业界关注的热点,最初的工作主要集中在单模态检索上,例如用图像检索与之相似的图像。但是现如今互联网的发展速度非常快,人们频繁地使用手机中的各类软件,生产出大规模的多模态数据,例如图片,文字,视频和语音等等,以往的单模态检索技术面对人们多样化的检索需求开始变的逐渐乏力,例如人们想要通过一幅图像搜索出与之相关的视频片段或者文本描述。因此为了更好地满足人们的需求,同时更好地利用这
论文部分内容阅读
检索任务一直都是学术界和工业界关注的热点,最初的工作主要集中在单模态检索上,例如用图像检索与之相似的图像。但是现如今互联网的发展速度非常快,人们频繁地使用手机中的各类软件,生产出大规模的多模态数据,例如图片,文字,视频和语音等等,以往的单模态检索技术面对人们多样化的检索需求开始变的逐渐乏力,例如人们想要通过一幅图像搜索出与之相关的视频片段或者文本描述。因此为了更好地满足人们的需求,同时更好地利用这些海量的多模态数据资源,跨模态检索就变得尤为重要。跨模态检索的目标是在给定一个模态查询实例的情况下,能够精确地从其它模态中检索出与之语义相似的实例。近几年虽然已经在跨模态检索领域取得了巨大的进展,但是“模态鸿沟”依然是该领域目前存在的巨大挑战。由于不同模态实例的分布和表示方式存在差异,因此无法直接度量它们之间的相似性。近年来深度学习技术的发展势头迅猛,在此期间许多优秀的深度网络模型被相继提出,生成对抗网络就是其中比较具有代表性的模型之一。因为生成对抗网络具有强大的拟合真实数据的特征分布和生成具有判别性的特征表示的能力,所以越来越多的跨模态检索方法引入了生成对抗网络。为了在一定程度上减小“模态鸿沟”对跨模态检索产生的负面影响,本文提出两个融合了生成对抗思想的跨模态检索方法,主要贡献如下所示:(1)现有的大部分基于生成对抗机制的跨模态检索方法只包含一个模态判别器,用来判断生成的样本属于哪一种模态,但是只使用一个模态判别器不能充分地挖掘出模态间的不变性,因此限制了跨模态检索的精度。为了解决这个问题,本文提出一个融合全模态自编码器和生成对抗机制的跨模态检索方法。该方法引入两个并行的全模态自编码器,分别将图像和文本模态的样本嵌入到公共空间中,每个全模态自编码器不仅重构出自身模态的特征表示,还重构出跨模态的特征表示。为了在公共空间中更好地保留语义判别性,在两个全模态自编码器的中间层之间连接了一个分类器,将公共空间中的嵌入特征映射到标签空间中。为了挖掘模态间的不变性,引入一个模态判别器,并在此基础上新增了两个模态判别器,用来挖掘更深层的模态间的不变性。通过生成对抗的策略训练网络,使最终学习到的公共空间不仅保留语义判别性,而且还保留模态间的不变性。(2)现有的大部分有监督的跨模态检索方法没有充分利用类别标签中包含的语义判别信息,尤其是处理多标签数据的跨模态检索方法,它们根据样本的类别标签计算得到的相似度矩阵只能表示两个样本是否相似,并不能表示样本之间更精细的相似关系。为了解决这个问题,本文提出一个融合多级语义关系和注意力机制的对抗跨模态检索方法。该方法计算了一个多级的相似度矩阵,可以表示样本之间更精细的相似关系,指导网络学习保留跨模态数据之间的多级语义相似性。为了在公共空间中更好地保留语义判别性,在两个并行的网络分支末端连接了一个分类器,为公共空间中不同模态的嵌入特征预测一个标签。引入了注意力机制,为特征中包含信息量多的部分赋予更高的权重,让网络在训练过程中更加关注这些部分。除此之外还引入了生成对抗机制,在学习保留语义判别性信息的同时挖掘模态间的不变性信息。
其他文献
为了支撑上层自动驾驶功能,一辆自动驾驶汽车通常安装大量的传感器来获取道路状况,并安装众多应用程序来保障其正常运行。然而,传统的车内网络缺少细粒度的认证单元和各类加密单元,很多应用程序可以过度访问自动驾驶车辆上的敏感数据,造成车辆的隐私泄露。此外,车载相机系统易受到光线影响,在极端环境下感知的准确性有限;针对这一问题,一些学者提出将车辆自组织网络与自动驾驶技术结合,提高自动避障性能,然而保障消息的安
采用主动有源装置如雷达等设备来估计目标的位置属于有源定位的范围,有源定位的一个缺点是很容易受到反辐射打击或电子干扰,使得系统的安全得不到保障,而无源定位技术的出现很好的解决了这个问题。无源定位技术相对于有源定位的主要区别在于其自身不需要发射信号,它是一种直接利用目标发射或反射的信号来获取目标位置的技术,其基本原理是利用多个位置明确的接收站共同接收目标发射或反射的信号,从中提取出能用来获取目标位置参
随着互联网的飞速发展,人们可以从互联网上获得的信息也与日俱增。而信息的激增也会带来信息过载的问题,人们虽然可以更容易地找到自己所需要的信息,但对自己而言无用的信息也随之激增。为了解决信息过载问题给用户带来的困扰,推荐系统应运而生。在推荐系统技术中,协同过滤算法是使用最为广泛的算法。但协同过滤算法发展至今仍需解决诸如数据稀疏性、冷启动等众多问题。本文针对协同过滤算法的缺陷和现有方法的不足进行深入研究
在面对恶劣环境时,单导航系统性能表现不佳,定位精度有限。随着卫星导航系统的发展与完善,相比单一导航系统,组合导航系统以其可以提供更多的可见卫星和提高定位精度受到更多的关注。同时,北斗三号系统的最新建成为组合导航系统的发展提供新动力。然而在组合系统选星场景下,冗余卫星信号的增加却加大了卫星选择的时间和计算成本。因此,本文为改善选星问题,提出基于差分进化的选星算法,利用差分进化的快速搜索能力达到快速选
现实生活中存在着各式各样的文本(印刷体或是手写体),比如书籍、支票、广告牌、考试卷,而如何自动地识别图像中的文本具有很大的应用价值和研究价值。图像中的文本信息对于其他计算机视觉任务,如图片检索、无人驾驶、场景理解、即时翻译等有着很大的帮助。因此,自然场景中的文本检测和识别引起了学术界和工业界大量关注。越来越多的纸质文档通过拍照成像进行识别,且很多文档中手写和印刷体文本混合。因此,本论文除了研究场景
行人重识别任务主要是给定一张行人图像,在一个大型的图片库中去匹配到该行人的另一张图像。近些年来不断涌出的基于深度网络的行人重识别算法在很多大型数据集上都持续刷新记录。由于现实情况下可能会存在各种遮挡物体,很多用于解决行人重识别任务的模型并不能很好地适用于存在很多遮挡的数据。因此,本文研究了在遮挡情况下的行人重识别,根据对遮挡数据的不同处理,将分为局部行人重识别和遮挡行人重识别两个子任务分别去研究。
近年来,随着移动通信技术快速发展,圆极化天线以其独有的特性被广泛用于各种各样的无线通信系统中。天线作为通信系统的不可缺少的一环,对其性能的要求也越来越高,如要求天线要具有尺寸小,宽频带,高增益,方向图良好,低成本等特性。在一些空间有限的无线通信设备中,也通常需要天线具有低剖面的结构特性,但同时具备宽带和低剖面的特性还有待研究。因此,本文主要对宽频带和低剖面这两个特性设计了三种圆极化天线,主要内容为
大规模多输入多输出(Massive Multiple Input Multiple Output,Massive MIMO)技术作为第五代移动通信系统的关键技术之一,相对于传统MIMO技术来说,增加了更多的天线数量,在系统容量、频谱效率、数据传输速率和传输可靠性等方面显著提升了系统性能。但是随着基站天线数和用户数的增加,Massive MIMO信号检测过程的计算复杂度较高,难以实现,是研究的难点问
随着大数据时代的到来,人们对自动驾驶、计算机视觉、语音识别等数据密集型应用越加的重视。现如今,几乎所有先进的计算平台都是基于著名的冯·诺依曼架构,由于其计算和数据存储分开的特性,在处理数据时需要在计算模块和存储模块之间进行频繁的数据传输,从而造成了“内存墙”的问题。为了解决“内存墙”的问题,很多学者提出了“存算一体化”的概念,即将部分计算模式嵌入到内存中,从而减少处理器和存储模块之间的数据传输。静
随着数据分析技术的迅速发展和智能终端设备的广泛应用,数据聚合成为各个领域中的一项重要技术。在面向边缘计算的数据聚合中,边缘服务器收集和聚合来自终端设备的感知数据,以提供智能计算和实时控制等服务,并且将聚合结果上传给云服务器,从而执行全局的数据分析。考虑到感知数据可能涉及终端用户的隐私信息,面向边缘计算的隐私保护数据聚合方案被相继提出。隐私保护原始数据聚合支持服务器收集原始感知数据,从而可以计算任意