论文部分内容阅读
随着数字成像、数据存储等技术的飞速发展以及互联网的普及,各种各样的图像正以惊人的速度增长,日益丰富的图像资源使用户难以在浩如烟海的数据库中找到其真正需要的信息,因而有效的图像检索技术成为近年来研究界关注的热点。现有的图像检索技术主要可分为两种:基于文本信息的图像检索与基于视觉信息的图像检索。前者主要依赖于图像的文本标注信息进行检索,但面对数以万计的图像,手工标注的代价太过昂贵,使得此种检索方案渐已不能满足现实的应用需要;后者主要利用视觉特征提取和高维索引技术进行检索,但因为语义鸿沟的存在,视觉特征相似的图像很可能在语义上是不相关的,使得很多情况下此种检索方案难以满足用户的信息需求。为了充分发挥两种检索方案各自的优势同时降低它们的缺陷,学者们研究了多种方法来结合这两种技术以进行检索,这些工作都显著地提高了图像检索的性能。本文在此基础上就如何融合视觉内容与文本语义进行图像检索做了一些研究工作,主要分为以下几点:1研究了图像视觉内容的描述方法。针对使用传统的SIFT特征来描述图像视觉内容速度较慢、效率较低等缺陷,提出了使用改进的DSIFT特征结合词袋模型以构造视觉单词的方式来描述图像的视觉内容。2研究了一种如何根据图像视觉内容自动获取其语义信息的方法。针对依赖人工标注来获取图像语义信息需耗费较大代价的问题,提出了一种基于概率隐语义分析模型的图像语义自动获取方法,它将图像视为一系列文本信息与视觉信息的潜在主题混合,先通过拟合两个PLSA模型来分别学习文本信息和视觉信息,再使用一种自适应不对称学习方式来建立两种信息间的联系,如此即可以根据图像的视觉内容来自动获取其语义信息。3研究了一种将文本信息与视觉信息结合起来进行图像检索以提高检索精度的方法。提出了分层检索的思想,先依据自动获取的语义信息初步检索筛选出语义相关的图像,再根据提取的视觉特征进行第二层细化检索对图像按相关度由大到小排序输出。在自主设计的检索原型系统上,针对图像数据集Corel1K进行的一系列实验表明,本文所做的研究工作确实提高了图像检索的性能。