论文部分内容阅读
在图像数量爆炸式增长的背景下,快速准确地查找用户感兴趣的图像是一项极具挑战性的任务。跨模态图像检索是指输入的查询与图像分属不同模态的检索任务。如何跨越语义鸿沟,从图像中抽取图像的语义信息并准确理解查询输入,从而实现二者在语义层次上的匹配是该类问题的关键和难点。虽然跨模态图像检索在学术界己得到广泛研究,但语义鸿沟问题仍未得到较好的解决。近年来,随着深度学习的兴起,人们尝试将深度学习方法应用于跨模态图像检索任务;虽然取得了部分研究成果,但仍然存在许多关键技术需要突破。 “以文本(比如句子)为输入查询且候选图像并无文字描述”是跨模态图像检索的主要形式,也是本文的研究重点。为此,本文将构建面向跨模态图像检索任务的深度学习模型,并在基础上研究图像一文本跨模态语义关联学习方法。本文的主要工作和贡献如下: (i)本文提出了一个基于多模态深度神经网络的回归排序模型。在网络结构上,该回归排序模型分别利用两个前向神经网络对图像输入和文本输入进行特征学习,并通过一个关联层将二者关联,最后由一个分数结点来输出相关度分数。考虑到互联网搜索引擎中有数量巨大的形如(查询,图像,点击量)三元组数据,论文进一步引入一个基于点击量的高斯过程模型,并由此提供一种度量图像和查询文本的相似度计算方法。对比实验验证了该方法的有效性。 (ii)论文提出了一个跨模态(文本-图像)耦合深度学习模型,并将其应用于跨模态图像检索之中。其核心思想是构建一组深度神经网络将图像和文本数据通过特征学习的方式映射至共同的语义空间,从而实现对不同模态数据的语义耦合。具体地,模型采用卷积神经网络直接从输入图像中提取图像模态的语义特征,采用词向量的方式表示文本,用一维卷积神经网络从词向量表示中提取文本模态的语义特征。在共同的语义空间中,采用余弦距离计算图像和文本之间的相关度。论文所构建的深层神经网络模型是一个端对端的学习系统,即该模型将文本特征表示、图像特征学习、文本特征学习、跨模态检索与排序等任务共同整合到同一个学习框架之中。在跨模态图像检索任务中验证了该模型的有效性,并能明显地提高检索精度。