论文部分内容阅读
随着旅游业的飞速发展,网络上各个景点图片泛滥,图像数据越来越庞大,很多时候对于浏览的某张美丽的风景图片但是并不知道属于哪个景点。因此,如何从如此大规模的图像数据中快速准确的搜索到所需的景点信息是一个很实用并亟待解决的问题。近年来,大规模图像检索方法已日渐成熟,为能够从海量景点图像中准确地找到目标图像提供了可能性。论文结合近几年大规模图像检索和图像处理等方法来实现对大规模旅游景点图像的检索。论文主要工作如下:(1)研究了图像检索的基本理论知识及常用方法,主要包括:基于图像全局特征的描述符GIST和基于图像局部特征构建的词袋模型(bag-of-feature,简称BOF)。GIST特征是利用多组Gabor滤波器与图像卷积,并对图像进行网格划分,将不同网格的卷积结果级联得到图像的全局特征。但是这种特征提取方法往往依赖于对网格的划分而且只有在不同图像整体相似度较高的情况下检索效果好。BOF模型是借鉴于对文本检索的方法,一般是通过SIFT(scale invariant feature transform)算法提取图像局部特征并利用k-means进行聚类得到低维的视觉词典,用基于视觉词典的直方图向量表征图像特征。但是在图像种类较多时,视觉词典的维数会很大,不便于构建BOF模型。(2)为改进这两种方法在大规模图像检索中准确度等缺点,论文利用Alex等人提出的8层卷积神经网络作为特征提取的框架,取最后一个全连接层作为图像特征,并通过主成分分析方法对其进行降维,然后利用基于局部敏感哈希(locality sensitive hashing,简称LSH)的近似最近邻算法构建低维的特征索引结构。利用卷积神经网络提取特征的优势和哈希索引结构在检索中的高效率,解决了传统方法在图像检索时准确度等方面的不足。(3)论文利用该算法对北京市1740个旅游景点进行图像检索实验,结果表明,与上述两种算法相比,对于多数的景点该方法在检索的准确度上都有比较明显的优势,当景点图像库中的某个景点相似图像较少时,查询结果的准确率与前两种方法相差不大。