论文部分内容阅读
图像检索是计算机视觉的一个重要分支领域。图像检索的一般流程是,首先提取训练集中图像的特征,然后提取待检索图像的特征,接着计算待检索图像特征和训练集中图像特征的相似度,最后根据相似度大小排序并返回检索的图像。图像特征提取方法广泛采用基于尺度不变特征变换(Scale-invariant feature transform,SIFT)的提取方法,但是SIFT特征提取方法的主要问题在于:提取的特征过于底层,和图像底层纹理、轮廓结构有较大相关性,与人们对于图像理解的高层语义关系较弱。随着深度学习模型在计算机视觉中的广泛使用,一些研究者将深度学习和图像检索结合起来,利用预训练卷积神经网络提取图像特征,从而替代基于SIFT的特征提取方法,在一定程度上解决SIFT不能表达图像高层语义的问题。然而,大部分研究者直接使用从卷积神经网络中提取的特征,并没有对这些特征进行挑选。考虑到卷积神经网络一般都以分类任务作为目标进行网络权重的训练,因此训练好的卷积神经网络权重可能更适合做分类任务而不是图像检索。基于此,本文提出选择卷积特征融合法(Selective Convolution Feature Fusion,SCFF)和空间通道增强选择卷积特征融合法(Space Channel Enhancement SCFF,SCE-SCFF)来解决特征选择问题。本文主要工作如下:(1)提出SCFF算法。选择卷积特征融合法,是和其他两种特征融合法相比较而言的,其中一种是最大池化特征融合法(Max Pooling Feature Fusion,MPFF),另外一种是累加池化特征融合法(Sum Pooling Feature Fusion,MPFF)。SCFF通过计算得到一个二维平面向量的掩码(mask),然后使用掩码挑选出和图像检索相关的特征,从而将和检索不相关的特征过滤掉。最后使用累加池化特征融合法将挑选出的特征融合成为一个特征向量,以此作为图像特征向量的表达。(2)提出SCE-SCFF算法。空间通道增强选择卷积特征融合法,是在SCFF的基础上对模型的进一步修改和完善。考虑到选择出来的特征通道所占权重可能不相同,因此参考SENet(Squeeze-and-Excitation Networks,SENet)模型对卷积通道进行权重建模的思想,在SCFF基础上构造每个卷积特征通道的权重,从而使得挑选出来的特征再次进行空间通道上的加强,最后使用累加池化特征融合法将已经通过空间通道增强的卷积特征融合成为一个特征向量进行图像检索。(3)将本文提出的SCFF和SCE-SCFF分别在常用的图像检索的数据集Paris6K、Oxford5K、Holiday上面进行实验测试,并与使用SIFT特征进行图像检索的方法、使用卷积神经网络来提取图像特征进行图像检索的大量优秀方法,进行了不同维度图像检索结果对比,其中图像特征向量维度为256时,在Oxford5K数据集和Paris6K数据集上面均获取最好的效果,图像平均检索精度(mean Average Precision,mAP)分别是71.0%和79.3%,图像特征向量维度为512时,在Oxford5K数据上面取得最好的检索效果,mAP是73.0%。