论文部分内容阅读
图像分类是计算机视觉领域的一个基本问题,近年来已吸引了大量的关注。目前的研究往往以结合空间金字塔匹配(Spatial Pyramid Matching,SPM)的词袋(Bag-of-Words, BoW)模型为基础展开。此方案为场景图像分类提供了一个有效的捕捉图像统计信息的方式。词袋模型最初应用于自然语言处理和信息检索,是一个简化的假设。在这个模型中,不考虑语法甚至语序,把文本(如一个句子或者一个文档)表示为一个无序的词的集合。计算机视觉的研究者们从此受到启发,把该理论扩展应用到图像表示中。假定图像是一个文本,从图像提取的局部关键点特征对应于文本中的“词”。BoW表示是进一步图像处理的基础,如目标识别。此方法首先学习一个视觉词汇表(vocabulary),然后量化每一个图像的关键点特征使其成为视觉词汇表中的的某个视觉词(visual word),最后用视觉词的频率直方图表示图像。视觉词汇表也称为码书或者码本(codebook),视觉词汇相对应的称为码字(codeword)。在此过程中,往往用聚类算法(k-means)生成码书。大量的研究和学习表明,BoW模型在目标识别领域取得了令人鼓舞的成果。因此,本文以BoW模型为研究背景,主要探讨和研究图像不变特征的表示方法和场景图像分类算法。目前,码书通常是用训练集图像通过聚类方法得到。此外还有基于有监督的码书学习、核码书学习、稀疏编码等码书生成方法。利用这些方法生成的码书存在冗余的缺点。本文中,应用新近提出的激活力(Word Activation Forces, WAFs)来减少BoW模型中码书的冗余性。实验结果表明,基于WAFs的码书优化算法是有效的。通过码书的优化,图像特征表示得到改善。此外,本文提出使用软阈值-倒排文档频率(soft-Inverse DocumentFrequency,soft-IDF)优化BoW特征。给定码书和数据集,每个视觉词(码字)在特定的图像中出现的次数不同,而且出现在不同数量的图像中。一些视觉词出现频率很高,相反一些视觉词罕见的出现在几幅图像中。基于Soft-IDF的BoW特征优化方法平衡了这种不均衡性。实验表明,所提出的方法在场景图像分类中取得了令人鼓舞的效果。本文还提出基于参考比较(reference-based)的场景图像分类方法。该方法用一个参考集(reference-set)对图像进行表示,并利用该reference-set进行码书学习。联合reference-set的码书学习过程为:首先加权联合该reference-set到目标函数中,形成一个归一化的目标函数,然后用K-SVD算法优化求解,学习码书。码书生成以后,提取图像的局部限制的线性编码特征(Locality-constrained Linear Coding, LLC)表示图像。接下来,计算图像和reference-set的相似度矢量,以此矢量作为图像的最终特征。通过此过程,图像的特征空间维数显著降低。更重要的是,实验结果表明,reference-based算法实现了卓越的分类性能。Reference-based场景图像分类算法成功引入一个reference-set到码书学习和图像特征表示过程,其reference-set是每类图像中随机选取若干图像组建而成,相似度度量方法也是应用简单的距离测量。本文中,作者对该算法主要从两方面进行了改进。首先,给定更有代表性的reference-set。为此,本文改进了k-means聚类方法,在特征空间选择了一个更有代表性的reference-set。另一方面,在图像分类过程中,把reference-set的每一类看作一个社会网络,用社会网络中的中介度中心性(betweenness centrality)度量图像和reference-set的相似性。因为考虑了查询图和reference-set的整体关联性,因此该度量方法更加准确。而且不同于以往只考虑图像与图像的相似度测量,betweenness centrality引入了图像到图像类的相似度测量。通过大量的实验证实,改进算法获得了更好的性能,改进算法也成功的将社会网络的理论应用到场景图像分类领域。