网络图像检索系统中的图像语义理解技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:sarahfung
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0和社会媒体的发展,各种社交应用和平台极大地便利了人们之间的信息交流,用户可以随时随地上传图像并与他人分享。丰富多彩的互联网资源吸引了大量用户,但与此同时,互联网上的图像数据也呈现出爆炸式的增长。如何有效地索引和检索这些图像数据成为一个亟需解决的问题。  基于内容的图像检索(CBIR)利用图像的视觉特征进行图像的相似性匹配,从而提供一种能够响应客观图像内容的检索方式。然而,一方面受制于“语义鸿沟”的瓶颈,低层的视觉特征不能完全反映和匹配用户的检索意图。另一方面,在图像检索时,用户一般关注的是图像内容所表达的语义信息。因此,建立图像内容与语义之间的关联,即图像语义理解,成为图像检索领域一个重点研究方向。现有的图像语义理解技术可以分为图像层面语义理解和区域层面语义理解,即图像标注(image annotation)和图像解析(image parsing)。图像标注利用己标注图像集合(带有图像级别的人工标注)训练模型,目标是标注图像。图像解析利用精细标注图像集合(带有像素级别的人工标注)训练模型,目标是标注区域或者像素。鉴于图像内容以及语义的多样性,人工标注不仅耗时费力,而且在功能上越来越不能满足需求。随着社会媒体的兴起,大量带有社会标签的图像涌现在互联网中。通过弱监督学习可以利用这些网络图像辅助图像语义理解,从而减轻对于人工标注的依赖,并提高算法的性能和可扩展性。  本文针对图像语义理解这个核心问题,在图像和区域两个层面的语义理解方面进行了广泛而深入的探讨。在图像标注层面,主要对语义特征表示、图像视觉特征表示等方面进行了研究。在图像解析层面,主要探索了表观模型、空间上下文关联、弱监督学习等方面的关键技术。本文工作的主要内容和贡献总结如下:  1.讨论了标注词之间的关联对于图像标注算法的性能影响。在现有的图像标注算法中,一般直接使用训练集给定的标注词来作为训练。但是由于单个的标注词有时存在歧义性,所以不一定能够合适地表达图像语义。因此,我们提出了一种通过组合单词来构建词组标注词库的方法。实验证明由我们的方法构建的词组拥有语义和视觉一致性,从而有效地提升标注算法的性能。  2.提出了一种考虑空间依赖关系的特征提取方法。在传统的视觉词袋(Bag-of-Visual-Words)方法中,单个视觉单词(visual word)往往不具有足够的判别力,而且视觉词之间的依赖关系也被忽略了。为了克服以上两点不足,我们提出了一种判别特征组的特征提取方法。通过挖掘局域邻域内的视觉单词组合,判别特征组能够有效地表现出每一类图像中特定的依赖结构,提高了特征的判别力。判别特征组可以很好地与现有的视觉词袋方法融合,并应用于图像分类任务。  3.作为弱监督环境下的区域标注的问题之一,标签定位的任务是将图像标注定位到相应的图像区域。针对标签定位,我们提出了一种判别式图推理框架。图推理通过区域之间的相似性构建图结构,由标签传播的方式协同地推理区域类标。然而,当某些类标共生性很强时,图推理容易陷入误区。为了克服图推理的这个不足,我们引入表观模型的学习,针对每一个类标训练分类器,从而增强区域类标推理时的判别力。最终,框架通过统一的目标函数,使图推理和表观模型学习两者在优化的过程中相互促进,提高标签定位的准确率。  4.探讨了区域空间上下文对于弱监督环境下图推理的帮助。在图推理构建图结构时,一般通过计算区域之间的视觉相似性得到的。但有时候单个区域的不能很好地表达语义上的相似性,视觉相似的区域不一定拥有相同的语义。然而在图像中,区域之间存在着稳定的结构,并在此结构上保持稳定的类标关联。我们提出了一种弱空间约束的图推理,试图挖掘这种结构,并指导图推理获得正确的区域类标。
其他文献
中国的诗歌艺术源远流长,诗歌作为一种最接近口语的大众化文学形式,在汉语文化的成长演变与传播中占有极其重要的地位,唐代的诗歌更是集古代诗歌的优势于一身,并且把诗歌艺术发扬
全文共分七章。第一章分析了监控系统的现状和监控系统中要解决的关键技术。第二章深入分析了H.264视频编解码技术及其优点。第三章从总体上介绍了监控系统的结构设计和分
随着Internet技术在全球范围内的迅速发展与普及,网络信息资源日趋完善,远程教育已成为一种崭新的教育模式,它突破传统教育在教育资源和教育方法等方面的限制,实现了不受时间、空
规划是中心决策体系结构里机器人完成人们赋予任务的核心,规划与环境建模共同地决定着构成系统的环境适用性、复杂环境处理能力和导航监控的快捷、灵便等等,而且同人机接口一
随着因特网的迅猛发展,用户需要的信息资源可能分布在不同的信息源上,如何使得这些分布的、异构的信息源协同工作从而为用户提供完整的信息访问和服务成为一个很重要的研究领域
论文首先分析了黑客入侵和网络安全模型;在此基础上给出了入侵检测的定义,入侵检测系统的结构组成和入侵检测系统的分类,详细阐明了基于误用的入侵检测系统和基于异常的入侵
随着Internet以及相关技术的发展与成熟,人们已经进入信息量极其丰富的时代。由于网络技术的迅速发展,因特网上的信息量迅猛增加,人们面对的问题不再是缺乏有用信息,而是如何更快
上世纪80年代初,软件产业逐步进入过程化生产的时代,人们开始意识到技术的改进必须与过程的改进同时并举,才能真正达到保证产品质量的目的。一系列重要的国际标准和模型纷纷被提
激光惯性约束核聚变因能量高、无污染且可提供经济、安全的能源,已成为解决未来能源危机的有效途径之一,目标靶精密定位是实现惯性约束核聚变的技术难题。当立体视觉引导下的目
随着计算机网络的普及,以及网络带宽的不断提高,越来越多的实时通信在网络上得以实现。传统的电话网络由于其昂贵的通信费用和单一的点对点通信很难满足企业、公司电话会议且