论文部分内容阅读
近似最近邻搜索是多媒体与计算机视觉领域的基础研究方向,在大规模图像检索、行人再识别等实际问题中获得广泛研究和应用。给定一个查询样本,近似最近邻搜索方法的目标是以次线性甚至常数时间复杂度从大规模数据集中返回查询样本的最近邻。目前主流的近似最近邻搜索技术可以分为三类,分别是基于树的方法,基于二值哈希的方法和基于量化的方法。由于基于二值哈希的方法和基于量化的方法具有特征距离计算快和内存占用低的优势,近年来获得了更多的研究关注。其中,二值哈希方法将原始高维数据特征投影为低维二值码,而量化方法将原始高维特征投影为码本中最近的码本单词的整数索引。本文基于对二值哈希方法和量化方法的研究,提出了三种近似最近邻检索框架,应用于图像检索任务。(1)基于线性距离约束的哈希通用框架。二值哈希方法通常需要学习一系列的哈希函数来产生规定长度的二值码。本文提出一种基于线性距离约束的哈希通用框架,同时结合了成对保距约束和单点性约束学习哈希函数。本文设计了一种新颖的成对线性保距目标,保证原始的欧氏距离与汉明距离之间具有线性变换关系,充分体现了二值哈希方法的保距原则。基于不同的单点性约束,本文提出了五种方法去实例化该哈希通用框架。(2)深度有监督量化框架。基于量化的方法目前大多采用无监督的方式进行学习,忽略了数据集中样本包含的语义信息,而且通常将特征学习和码本学习分为两个步骤进行,不能保证码本与特征相匹配,影响了近似最近邻检索的准确度。本文提出了一种深度有监督量化框架以解决该问题。该框架将卷积神经网络和量化网络融合到一个统一的深度架构中,同时学习图像的深度特征和码本。基于不同的码本学习方法,本文提出了三种深度有监督量化方法去实例化该深度有监督量化框架。(3)基于生成对抗网络的深度无监督量化框架。目前深度哈希方法较少在无监督情境下应用,其主要原因是类别或标签等语义信息的缺失给深度网络的训练带来难度。然而,在很多实际应用中获取标签或类别等信息的代价是昂贵的甚至是不可能实现的。本文提出了一种新颖的深度无监督量化方法,可以同时学习特征表达和量化器。基于生成对抗网络,量化器中每个聚类中心学习生成一张真实感的图像。优化目标是通过同时在图像空间和特征空间进行聚类中心的优化,使得获得的聚类中心能够自动抓取图像分布,获得区分性信息。综上,本文主要研究图像检索中的二值哈希方法和量化方法,并提出了三种近似最近邻检索框架。在公共数据集上的测试结果表明,所提出框架的实例化方法相对于现有近似最近邻搜索方法获得了较大的检索性能提升。