论文部分内容阅读
图像检索旨在从大规模图像集合中快速准确地检索与用户给定查询相似的图像,是多媒体处理和计算机视觉领域的重要问题。图像检索系统通常采用视觉特征提取技术,将图像内容描述为高维空间的数字向量,从而将图像检索转变为高维特征的相似性查询问题,并利用索引技术实现特征的快速查询。由于视觉特征维度通常较高,树形结构的传统索引技术受“维度灾难”的影响而不再适用,高维特征的查询需要新的索引技术支持。另一方面,随着图像规模的快速增长,图像特征和索引的存储消耗也成为影响检索性能的关键因素。因此,如何对大规模高维特征集合建立有效的索引结构,以满足查询性能和存储资源的双重要求,成为解决大规模图像检索问题的关键所在。与此同时,图像检索面临的数据正变得多样性,用户对搜索体验有了更高的要求。实际应用中,用户往往期望查询结果包含不同类型的信息以更好地理解和认知所关心的问题,例如用户以文本为查询,希望返回结果同时包含相关文档以及图像视频等内容。因此,如何在大规模多样性的图像集合上实现不同类型信息间的跨模态检索正逐渐成为多媒体领域研究的新热点。 近年来,二进制哈希(Binary Hashing)算法以其优越的存储性能和查询效率被广泛用于高维特征的相似性查询。通过将原始高维特征数据映射为01海明编码,二进制哈希算法显著降低了数据的存储消耗。同时以海明距离为度量进行查询,特征的匹配速度得到显著提升。因此,本文以二进制哈希为基础,通过分析现有代表性工作的优势和不足,对二进制哈希算法在海明编码学习以及查询中存在的问题进行深入研究,并提出相应的解决方案,以求推动二进制哈希算法在大规模图像检索中的应用。本文的主要贡献总结如下: 1.保持数据集拓扑结构的编码学习算法 二进制哈希算法将原始特征空间中相似的高维实值特征映射为海明空间中相近的编码,实现高效的数据存储和有效的近邻查询。算法使用原始特征集合的邻域结构(neighborhood structure)信息指导编码的学习。在实际应用中,高维特征数据往往分布在一个嵌入到高维空间的低维流形结构上(manifold),挖掘该内在流形的结构信息,即拓扑结构(topology),对于编码学习有着重要的意义。然而,目前主流哈希算法并不能在学习过程中充分保持数据内在流形的拓扑结构,造成编码性能的下降。本文提出保持数据集拓扑结构的哈希算法(Topology Preserving Hashing),验证了拓扑结构对于编码学习的重要性。通过挖掘数据集合的内在流形结构信息并以此指导编码的学习,获得更好的查询性能。同时,本文算法的编码学习过程可以有效地融合监督信息,实现基于语义的图像检索。在多个国际公认的基准数据集上对比试验证实了本文算法相对于主流的无监督、半监督哈希算法的有效性。 2.全空间拓扑保持跨模态哈希算法 为了解决不同类型数据(特征)间的检索问题,研究者们提出跨模态哈希算法,通过将描述相同或者相似多媒体信息的不同类型的特征映射为相近的海明编码,实现不同数据模态(特征)间的查询。由于不同类型的特征描述了相同或相似的信息,这些异构特征间存在关联的结构信息,如何充分挖掘并使用各个特征集合内部的结构信息以及不同特征集合之间的关联信息,成为影响编码性能的重要因素。本文提出全空间拓扑结构保持跨模态哈希算法(Full-Space Local Topology Preserving for Cross-ModalHashing),首先挖掘每个数据模态所在特征空间的拓扑结构,并以此为指导学习一个可以有效表达不同数据模态的共同子空间(intermediate subspace),然后在该子空间中挖掘所有特征空间的共同结构,指导海明编码学习。算法的学习过程不仅保持了每个特征空间独有的拓扑结构,同时也保持不同特征空间之间共同的拓扑结构。我们在三个国际基准的多模态数据集合上对算法进行了测试,结果表明本文算法的查询召回率和准确率均优于主流哈希算法。 3.海明编码查询结果精细排序算法 二进制哈希算法使用编码间的海明距离作为距离度量进行近邻查询。由于海明距离取值离散化并且其上限是编码长度,即编码比特位数目,在实际应用中,会造成很多结果和查询的海明距离相同。由于这些结果之间的相对排序未知,对更关注结果排序的检索问题造成查询精度的下降。其主要原因是哈希算法在计算距离时,默认每个编码比特位的重要性是相同的,而实际上不同比特位的重要性是不同的。因此准确量化不同比特位的重要性是解决上述问题的关键。我们提出比特位的判别能力(discriminative power)来显式地量化比特位的重要性。通过研究海明编码的学习过程和查询本身的邻域特性,提出数据集自适应(Data-Adaptive)和查询敏感(Query-Sensitive)加权算法对编码比特位进行加权,动态区分不同比特位对于不同查询的重要性。同时基于编码匹配的条件概率表达,提出加权海明距离指导查询结果的精细排序。实验结果证明本文的算法可以有效地区分不同比特位的重要性,显著提升哈希算法的查询精度。 本文以推动二进制哈希算法在大规模图像检索问题中的应用为目标,通过对海明编码学习,多模态数据关联性挖掘以及海明空间查询精度损失这三个关键问题进行深入研究,为实现快速有效的大规模图像检索提供了层次化的解决思路和方案,具有广阔的应用前景。