论文部分内容阅读
对象识别是计算机视觉领域的一个基本问题,生成有判别力的图像表示是解决这个问题的一种重要方法。词袋模型(Bag-of-Words, BOW)是一种常用的图像表示方式,它把局部的特征抽象成为视觉词,通过统计视觉词在图像中出现的频率来进行图像表示。目前,BOW的主要问题包括只考虑了形状特征和没有引入空间信息等问题。本文针对这些问题,利用颜色作为发现对象区域的手段,融合形状和颜色特征生成了更有判别力的图像表示。本文取得的主要研究成果如下:(1)提出了颜色合并的图像表示方法。此方法用图像块的颜色给形状特征加权,并且能够通过对对象颜色的估计与合并,在图像表示的时候给对象上的图像块赋予相同的高权值。算法认为对象是有判别力颜色的图像块集合,但是由于这些有判别力的颜色出现的概率不同,导致了对象上的图像块不能够被赋予相同的高权值,算法通过对类内和类间颜色相似性的判断,以优化的方式得到了每个类别中有判别力的颜色,最后通过合并颜色给图像块赋权值。实验结果证明了提出的图像表示方法的优越性。(2)提出了上下文颜色注意力图的图像表示方式。该方法把所有的颜色分为两种,即强颜色和弱颜色,相应的,拥有这两种颜色的图像块被称为强图像块和弱图像块。其中强图像块都是对象上的图像块,弱图像块被认为是背景上的图像块。为了识别出对象上的图像块,我们利用强图像块和弱图像块的上下文位置关系,计算出上下文颜色注意力值,并通过优化得到上下文颜色注意力阈值来判断出对象上的伪弱图像块。实验结果表明,我们提出的基于上下文颜色注意力的对象识别方法能够比自顶向下的颜色注意图(Color Attention,CA)方法获得更好的识别效果。(3)提出了基于成分金字塔匹配(Component Pyramid Matching,CPM)的图像表示方法,CPM利用颜色对图像进行分层,每层的前景和背景代表着不同的成分,前景成分通常对应着对象的一部分,最后把不同成分的表示连接起来作为最终的图像表示。CPM的划分方法能够为图像表示提供空间信息,在与颜色相关的图像库中取得了良好的识别效果(4)提出了一种中间层特征的层次挖掘方法。该方法首先用有判别力的颜色对图像进行层次划分,然后把每一个层次中的图像块认为是一个子类,通过挖掘子类中图像块的特征发现图像中的模式,最终用模式集代替视觉词来表示图像。这种方法有利于发现不同层次中特征之间的关系,实验结果证明了提出方法的有效性。(5)提出了一种基于多图像匹配的图像表示方式。该方法把图像块认为是节点,每一个节点与其近邻的节点相连用于生成图。同类图像中能够匹配的子图即为对象所在的区域。我们采用了一种种子-膨胀的策略进行多图像的匹配。把有判别力的颜色作为了判断种子的重要依据。接下来用得到的匹配集图来匹配所有的图像用于找到对象上的图像块。最终,这些图像块的特征被用于图像表示。实验结果验证了所提方法的优越性。基于颜色合并与上下文颜色注意力图的方法主要是利用颜色作为形状特征加权的依据,而成分金字塔与层次挖掘的方法则把颜色作为划分层次的标准,用以为图像表示增加空间信息。最后,提出的多图像匹配的方法把有判别力的颜色作为发现种子的重要依据,并且获得了这些方法中的最好分类结果。