论文部分内容阅读
随着Web2.0和社会媒体的发展,各种社交应用和平台极大地便利了人们之间的信息交流,用户可以随时随地上传图像并与他人分享。丰富多彩的互联网资源吸引了大量用户,但与此同时,互联网上的图像数据也呈现出爆炸式的增长。如何有效地索引和检索这些图像数据成为一个亟需解决的问题。 基于内容的图像检索(CBIR)利用图像的视觉特征进行图像的相似性匹配,从而提供一种能够响应客观图像内容的检索方式。然而,一方面受制于“语义鸿沟”的瓶颈,低层的视觉特征不能完全反映和匹配用户的检索意图。另一方面,在图像检索时,用户一般关注的是图像内容所表达的语义信息。因此,建立图像内容与语义之间的关联,即图像语义理解,成为图像检索领域一个重点研究方向。现有的图像语义理解技术可以分为图像层面语义理解和区域层面语义理解,即图像标注(image annotation)和图像解析(image parsing)。图像标注利用己标注图像集合(带有图像级别的人工标注)训练模型,目标是标注图像。图像解析利用精细标注图像集合(带有像素级别的人工标注)训练模型,目标是标注区域或者像素。鉴于图像内容以及语义的多样性,人工标注不仅耗时费力,而且在功能上越来越不能满足需求。随着社会媒体的兴起,大量带有社会标签的图像涌现在互联网中。通过弱监督学习可以利用这些网络图像辅助图像语义理解,从而减轻对于人工标注的依赖,并提高算法的性能和可扩展性。 本文针对图像语义理解这个核心问题,在图像和区域两个层面的语义理解方面进行了广泛而深入的探讨。在图像标注层面,主要对语义特征表示、图像视觉特征表示等方面进行了研究。在图像解析层面,主要探索了表观模型、空间上下文关联、弱监督学习等方面的关键技术。本文工作的主要内容和贡献总结如下: 1.讨论了标注词之间的关联对于图像标注算法的性能影响。在现有的图像标注算法中,一般直接使用训练集给定的标注词来作为训练。但是由于单个的标注词有时存在歧义性,所以不一定能够合适地表达图像语义。因此,我们提出了一种通过组合单词来构建词组标注词库的方法。实验证明由我们的方法构建的词组拥有语义和视觉一致性,从而有效地提升标注算法的性能。 2.提出了一种考虑空间依赖关系的特征提取方法。在传统的视觉词袋(Bag-of-Visual-Words)方法中,单个视觉单词(visual word)往往不具有足够的判别力,而且视觉词之间的依赖关系也被忽略了。为了克服以上两点不足,我们提出了一种判别特征组的特征提取方法。通过挖掘局域邻域内的视觉单词组合,判别特征组能够有效地表现出每一类图像中特定的依赖结构,提高了特征的判别力。判别特征组可以很好地与现有的视觉词袋方法融合,并应用于图像分类任务。 3.作为弱监督环境下的区域标注的问题之一,标签定位的任务是将图像标注定位到相应的图像区域。针对标签定位,我们提出了一种判别式图推理框架。图推理通过区域之间的相似性构建图结构,由标签传播的方式协同地推理区域类标。然而,当某些类标共生性很强时,图推理容易陷入误区。为了克服图推理的这个不足,我们引入表观模型的学习,针对每一个类标训练分类器,从而增强区域类标推理时的判别力。最终,框架通过统一的目标函数,使图推理和表观模型学习两者在优化的过程中相互促进,提高标签定位的准确率。 4.探讨了区域空间上下文对于弱监督环境下图推理的帮助。在图推理构建图结构时,一般通过计算区域之间的视觉相似性得到的。但有时候单个区域的不能很好地表达语义上的相似性,视觉相似的区域不一定拥有相同的语义。然而在图像中,区域之间存在着稳定的结构,并在此结构上保持稳定的类标关联。我们提出了一种弱空间约束的图推理,试图挖掘这种结构,并指导图推理获得正确的区域类标。