论文部分内容阅读
手绘草图的跨模态检索任务是近年来比较热门的研究领域,本文致力于研究手绘草图和自然图片之间的细粒度跨模态检索问题,即基于手绘草图的图像细粒度检索,其中用于查询的草图是一种抽象且令人感到模棱两可的数据,而被检索的目标则是常见的自然图片数据集,这两个模态数据之间存在模态域差异。这一任务最关键的问题是在两个模态数据之间构建一个桥梁来消除域差异,具体的做法就是分别从草图和自然图片中提取视觉特征并将它们投射一个共同的映射空间中。那么,基于手绘草图的图像细粒度检索任务的最主要的两个挑战就是(1)从草图和自然图片中提取有效的视觉特征信息,而草图的抽象性就给这一任务带来了很大的挑战;(2)得到提取出来的视觉特征,接下来就是需要构建一个适合跨模态信息检索的共同映射空间。本文致力于解决以上的两个挑战性问题,通过分析手绘草图的特征和跨模态检索任务的难点,提出了相应的解决方法:(1)本文通过对草图数据的特点进行分析,发现草图具有抽象性和稀疏性,针对这两个特性,本文通过引入注意力机制来使模型可以提取出更加有效的视觉特征信息;(2)通过进一步研究发现,以往的模型只关注于模型最后一层全连接层提取出来的特征而忽略了具有丰富低层次视觉特征信息的中间层特征,所以通过融合中间层和最后一层全连接层的特征信息来构建共同映射空间。为了可以更好地获取中间层特征信息,本文提出了一个多重三元组排序模型,通过在中间层引入了一个辅助监督损失函数来获取更有效的特征信息;(3)本文还提出了一种新的距离度量公式来进一步提升模型性能。本文在QMUL-Shoe、QMUL-Chair、QMUL-Handbag 三个细粒度草图-自然图片检索公开数据集上进行了大量的实验,实验结果表明本文的方法相比于当前最先进的一些方法取得了更优的性能,并且对比实验的结果也证明了本文模型各个模块性能的有效性。