论文部分内容阅读
随着互联网技术的迅速发展和普及,尤其是社交网站和图像共享网站的不断推广和应用,网络上的图像数量呈现快速增长趋势。如何快速、准确地从海量的图像数据中检索到用户所需要的信息,成为了一个亟待解决的重要问题。传统基于文本的图像检索方法直接利用网页中的文本信息,这些文本信息未必直接描述图像内容本身,因此准确性不高。基于内容的图像检索(Content-based image retrieval)可以有效地克服以上不足,逐渐受到学术界和工业界的重视。基于内容的图像检索首先采用一个高维的特征向量对图像进行描述,然后通过特征向量计算图像之间的相似度,按照相似度的大小返回检索结果。早期的研究更多地关注图像特征的描述能力和图像检索的准确性。随着图像数据规模的日益庞大,检索速度已成为图像检索的一大瓶颈。如何设计一个快速有效的索引结构,成为大规模图像检索的迫切需求。 一个好的索引结构应该具有两方面的特点:第一,要保证检索的准确性,能够满足用户的检索需求;第二,要保证检索的速度,能够支持大规模图像数据量的快速检索。目前常见的方法包括基于关键点特征的倒排索引,以及树形结构的索引等。其中,前一类方法能够保证较好的准确性,但这需要对图片中的每一个关键点建立索引,由于一张图像可能包含上千个关键点,因此效率较低;后一类方法的空间复杂度或者查询的时间复杂度是维数的指数次方,对于维数比较高的情况,检索的时间复杂度相对于和图片库中每一张图片都进行比较的线性复杂度几乎没有提高。近年来,一些研究工作开始通过LSH(Locality Sensitive Hashing)对图像的词袋(BoW:Bag of Words)特征建立索引。然而,这种方法需要将同一个词袋特征存放到多个哈希表中,一方面导致数据冗余,无法支持大规模数据量的检索,另一方面多个哈希表导致了检索效率的降低。而这两个问题正是索引结构走向实际应用面对的难点问题。 本文针对以上问题,提出了一种基于随机映射和高维视觉词组特征表示的图像索引结构:一方面,利用视觉词组把空间信息融入到图像的BoW特征表示中,生成一个高维的视觉特征,和传统方法相比,该特征表示更具区分性,能够更为有效地保证图像检索的准确性;另一方面,采用随机映射的方式,将图像特征映射到海明(Hamming)空间,得到一个更为简洁的二进制表示,满足在原始度量空间相近的图像在Hamming空间也较为相近,由于Hamming距离计算的高效性,本文方法能够比较大地提高检索速度。和现有基于LSH的方法相比,本文方法不需要存储多个哈希表,可以有效降低数据的存储开销,效率更高,能够支持大规模数据量的检索。