面向大规模图像检索的二进制哈希算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:whimco1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像检索旨在从大规模图像集合中快速准确地检索与用户给定查询相似的图像,是多媒体处理和计算机视觉领域的重要问题。图像检索系统通常采用视觉特征提取技术,将图像内容描述为高维空间的数字向量,从而将图像检索转变为高维特征的相似性查询问题,并利用索引技术实现特征的快速查询。由于视觉特征维度通常较高,树形结构的传统索引技术受“维度灾难”的影响而不再适用,高维特征的查询需要新的索引技术支持。另一方面,随着图像规模的快速增长,图像特征和索引的存储消耗也成为影响检索性能的关键因素。因此,如何对大规模高维特征集合建立有效的索引结构,以满足查询性能和存储资源的双重要求,成为解决大规模图像检索问题的关键所在。与此同时,图像检索面临的数据正变得多样性,用户对搜索体验有了更高的要求。实际应用中,用户往往期望查询结果包含不同类型的信息以更好地理解和认知所关心的问题,例如用户以文本为查询,希望返回结果同时包含相关文档以及图像视频等内容。因此,如何在大规模多样性的图像集合上实现不同类型信息间的跨模态检索正逐渐成为多媒体领域研究的新热点。  近年来,二进制哈希(Binary Hashing)算法以其优越的存储性能和查询效率被广泛用于高维特征的相似性查询。通过将原始高维特征数据映射为01海明编码,二进制哈希算法显著降低了数据的存储消耗。同时以海明距离为度量进行查询,特征的匹配速度得到显著提升。因此,本文以二进制哈希为基础,通过分析现有代表性工作的优势和不足,对二进制哈希算法在海明编码学习以及查询中存在的问题进行深入研究,并提出相应的解决方案,以求推动二进制哈希算法在大规模图像检索中的应用。本文的主要贡献总结如下:  1.保持数据集拓扑结构的编码学习算法  二进制哈希算法将原始特征空间中相似的高维实值特征映射为海明空间中相近的编码,实现高效的数据存储和有效的近邻查询。算法使用原始特征集合的邻域结构(neighborhood structure)信息指导编码的学习。在实际应用中,高维特征数据往往分布在一个嵌入到高维空间的低维流形结构上(manifold),挖掘该内在流形的结构信息,即拓扑结构(topology),对于编码学习有着重要的意义。然而,目前主流哈希算法并不能在学习过程中充分保持数据内在流形的拓扑结构,造成编码性能的下降。本文提出保持数据集拓扑结构的哈希算法(Topology Preserving Hashing),验证了拓扑结构对于编码学习的重要性。通过挖掘数据集合的内在流形结构信息并以此指导编码的学习,获得更好的查询性能。同时,本文算法的编码学习过程可以有效地融合监督信息,实现基于语义的图像检索。在多个国际公认的基准数据集上对比试验证实了本文算法相对于主流的无监督、半监督哈希算法的有效性。  2.全空间拓扑保持跨模态哈希算法  为了解决不同类型数据(特征)间的检索问题,研究者们提出跨模态哈希算法,通过将描述相同或者相似多媒体信息的不同类型的特征映射为相近的海明编码,实现不同数据模态(特征)间的查询。由于不同类型的特征描述了相同或相似的信息,这些异构特征间存在关联的结构信息,如何充分挖掘并使用各个特征集合内部的结构信息以及不同特征集合之间的关联信息,成为影响编码性能的重要因素。本文提出全空间拓扑结构保持跨模态哈希算法(Full-Space Local Topology Preserving for Cross-ModalHashing),首先挖掘每个数据模态所在特征空间的拓扑结构,并以此为指导学习一个可以有效表达不同数据模态的共同子空间(intermediate subspace),然后在该子空间中挖掘所有特征空间的共同结构,指导海明编码学习。算法的学习过程不仅保持了每个特征空间独有的拓扑结构,同时也保持不同特征空间之间共同的拓扑结构。我们在三个国际基准的多模态数据集合上对算法进行了测试,结果表明本文算法的查询召回率和准确率均优于主流哈希算法。  3.海明编码查询结果精细排序算法  二进制哈希算法使用编码间的海明距离作为距离度量进行近邻查询。由于海明距离取值离散化并且其上限是编码长度,即编码比特位数目,在实际应用中,会造成很多结果和查询的海明距离相同。由于这些结果之间的相对排序未知,对更关注结果排序的检索问题造成查询精度的下降。其主要原因是哈希算法在计算距离时,默认每个编码比特位的重要性是相同的,而实际上不同比特位的重要性是不同的。因此准确量化不同比特位的重要性是解决上述问题的关键。我们提出比特位的判别能力(discriminative power)来显式地量化比特位的重要性。通过研究海明编码的学习过程和查询本身的邻域特性,提出数据集自适应(Data-Adaptive)和查询敏感(Query-Sensitive)加权算法对编码比特位进行加权,动态区分不同比特位对于不同查询的重要性。同时基于编码匹配的条件概率表达,提出加权海明距离指导查询结果的精细排序。实验结果证明本文的算法可以有效地区分不同比特位的重要性,显著提升哈希算法的查询精度。  本文以推动二进制哈希算法在大规模图像检索问题中的应用为目标,通过对海明编码学习,多模态数据关联性挖掘以及海明空间查询精度损失这三个关键问题进行深入研究,为实现快速有效的大规模图像检索提供了层次化的解决思路和方案,具有广阔的应用前景。
其他文献
虚拟室外场景的建模技术是实时仿真、电子娱乐以及飞行模拟等许多重要应用的底层支撑技术,也是图形学与虚拟现实技术中一项重要的研究课题。然而由于室外场景的规模巨大和形态
实现互联网可持续发展需要研究新型的互联网体系结构,以内容标识为中心的信息中心网络(Information-Centric Networking,ICN)是未来互联网研究的主要发展方向之一。在信息中心网
工作流技术是计算机支持协同工作研究领域中出现的一项新技术,它是实现企业业务过程建模,业务过程仿真分析、优化,业务过程管理与集成最终实现业务过程自动化的核心技术。J2EE作
随着互联网的发展和宽带网络的普及,组播通信由于其高效、快捷的数据传输技术而得到越来越广泛的应用。组播是一种群体间进行通信的方式,介于单播和广播之间。相对于单播和广播
目前,机器人会代替人类在很多危险或者人难以达到的环境中作业,但是由于其智能水平的限制,就必须由人指挥着去完成特定的任务。因此,就需要一个高可靠的管理系统去协调操作人员和
学位
当今社会,嵌入式系统的应用越来越广,需求越来越大。传统的嵌入式系统开发方法不利于修改设计,开发成本高,设计周期长,不能满足激烈的市场竞争的需要。一种新型的嵌入式系统
近年来,一系列的评测活动引领并有力地推动了语音识别技术的发展.当前,面向真实应用场景和复杂环境的语音识别已成为发展趋势.针对规模无限、属性多样的真实应用数据,如何有
软件系统的复杂性和多功能性使其朝着可扩展的方向发展,其安全性问题受到了极大的关注。本文提出了一种在同一地址空间下划分多保护域的模型。定义保护域为用来确定一段执行代
三维重建(3D Reconstruction)是指对物体建立适合计算机表示和处理的三维模型,是在计算机环境下对其进行分析、处理和操作的基础。三维重建技术提供三维模型结构用于对三维信