基于深度学习的跨模态图像检索方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lingling111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在图像数量爆炸式增长的背景下,快速准确地查找用户感兴趣的图像是一项极具挑战性的任务。跨模态图像检索是指输入的查询与图像分属不同模态的检索任务。如何跨越语义鸿沟,从图像中抽取图像的语义信息并准确理解查询输入,从而实现二者在语义层次上的匹配是该类问题的关键和难点。虽然跨模态图像检索在学术界己得到广泛研究,但语义鸿沟问题仍未得到较好的解决。近年来,随着深度学习的兴起,人们尝试将深度学习方法应用于跨模态图像检索任务;虽然取得了部分研究成果,但仍然存在许多关键技术需要突破。  “以文本(比如句子)为输入查询且候选图像并无文字描述”是跨模态图像检索的主要形式,也是本文的研究重点。为此,本文将构建面向跨模态图像检索任务的深度学习模型,并在基础上研究图像一文本跨模态语义关联学习方法。本文的主要工作和贡献如下:  (i)本文提出了一个基于多模态深度神经网络的回归排序模型。在网络结构上,该回归排序模型分别利用两个前向神经网络对图像输入和文本输入进行特征学习,并通过一个关联层将二者关联,最后由一个分数结点来输出相关度分数。考虑到互联网搜索引擎中有数量巨大的形如(查询,图像,点击量)三元组数据,论文进一步引入一个基于点击量的高斯过程模型,并由此提供一种度量图像和查询文本的相似度计算方法。对比实验验证了该方法的有效性。  (ii)论文提出了一个跨模态(文本-图像)耦合深度学习模型,并将其应用于跨模态图像检索之中。其核心思想是构建一组深度神经网络将图像和文本数据通过特征学习的方式映射至共同的语义空间,从而实现对不同模态数据的语义耦合。具体地,模型采用卷积神经网络直接从输入图像中提取图像模态的语义特征,采用词向量的方式表示文本,用一维卷积神经网络从词向量表示中提取文本模态的语义特征。在共同的语义空间中,采用余弦距离计算图像和文本之间的相关度。论文所构建的深层神经网络模型是一个端对端的学习系统,即该模型将文本特征表示、图像特征学习、文本特征学习、跨模态检索与排序等任务共同整合到同一个学习框架之中。在跨模态图像检索任务中验证了该模型的有效性,并能明显地提高检索精度。
其他文献
工业机器人经过几十年来的长足发展,在控制精度上已经达到了很高的要求。但在工厂中广泛使用的工业机器人还是需要人类操作员来进行耗时的示教工作。工业机器人大多缺乏对环境
光机组件是大型激光驱动器的重要组成部分。目前,我国的大型激光驱动器装置虽已处于世界领先行列,但在装置建设中,尤其是光机组件的装配过程中,主要以人工为主,自动化程度低下。因
针对国内外污水处理行业的发展现状,本文对污水处理厂自控系统的历史和发展情况进行了全面、系统的阐述;结合污水处理工艺特点及其对自控系统的具体要求,设计了污水处理厂计算机
随着我国大型装备制造和战略科学研究的需要,大口径光学元件在各种大型光学系统中应用越来越广泛,例如大型天文望远镜镜片、惯性约束核聚变系统中激光驱动器、资源卫星大视场角
本文系统的研究了含间隙铰的多体动力学问题。运动副中的间隙会导致物体之间的冲击力,并产生磨损和噪声,降低系统的效率和工作精度。精细研究含间隙作用的机械系统的动力学模型
在网络信息时代,信息已成为社会稳定和发展的重要战略资源,如何保证信息的安全逐渐成为人们关注的焦点。密码技术作为解决安全问题的有效手段,在各种安全解决方案中得到了广泛的
本课题面向日益增长的服务机器人研发需求,尤其是服务机器人中的所需的机械臂,利用学习人类控制策略进行智能控制技术的研究。本文首先介绍机械臂的基础运动学控制,并提出一
随着我国国民经济的持续快速发展和人民生活水平的迅速提高,集中供热事业正以前所未有的速度迅猛发展。与之发展不相称的是供热企业技术与管理水平低,供热效果不好;用户端几
图片检索技术,因其应用的广泛,一直以来都是计算机视觉领域中的研究基础和热点。但是随着互联网、移动互联网的迅猛发展,网上图片量呈爆炸式增长,大规模图片中特定目标的检索又面
本论文针对现有的电子配料控制器普遍存在的配料速度和精度之间存在矛盾、大小量程兼容性差、稳定性差、体积较大等方面的不足,提出一种提高电子配料控制器精度的定时预测控