论文部分内容阅读
图像社区是随着web2.0和多媒体技术的发展与普及而产生的一类社交平台,作为一种新兴的网络应用,每天都有成千上万的用户将他们的本地图像上传至网络并添加标签、相应的描述等与人们共享。有效的组织、管理以及如何从如此海量的图像库中检索出所需要的图像已经成为学术界和产业界日益关注的问题。
基于内容的图像检索(content-based image retrieval,简称CBIR)利用图像的底层视觉特征(颜色,纹理,形状等)来代表图像的内容,图像的视觉内容被用来索引。CBIR面临的主要困难是语义鸿沟问题,即图像的底层视觉特征不能有效的表达图像的语义内容;基于文本的图像检索(text-based image retrieval,简称TBIR)主要依赖于图像所处的网络上下文环境来判断图像的主题内容,例如可以首先对图像的文件名、ALT标签文本、锚文本以及用户提供的标签、描述等图像周边文本建立索引,然后进行基于文本的图像检索。TBIR的局限在于图像的周边文本质量并不高,存在大量的噪声,很难判断哪些文本是真正与图像内容相关,用户添加的文本内容存在主观性和模糊性。在本文中,我们充分利用了图像的文本信息和视觉信息,通过将两者有效的融合来解决上面提到的问题。
另一方面,由于互联网环境下图像数量爆炸式的增长,检索返回的结果相当多,然而人们通常只关注排在前面的结果,因此“好”的结果排在前面是对一个图像检索系统的基本要求。这个“好”体现在返回的图像在具有高相关性的同时具有多样性。在一些只考虑了相关性的研究中,每幅图像与查询词的相关性是独立考虑的,这样,结果中图像与图像之间的关系就被忽略了。一个返回很多相关但是重复图像很多的结果,虽然取得了较高的相关性,但是能提供给用户的信息量却很少;再者,基于查询词的检索方式不可避免的会具有二义性,不同的用户键入的同一个查询词可能具有不同的检索意图,为了最大限度的满足不同用户的不同的检索需求,检索结果的主题多样性也很重要。为此,本文给出了一个贪婪的图像多样性惩罚算法,保证最终的图像检索排序结果在具有较高相关性的同时兼具多样性。
本文的研究着眼于网络社区中的图像检索排序问题,主要有以下贡献:
1.选择并提取图像的文本特征和视觉特征,使用形成的特征分别计算图像之间的文本相似度和视觉相似度,然后基于得到的相似度将图像集合构建成两个个相似度图:文本相似度图和视觉相似度图。在这两个相似度图上各自使用随机游走模型,从而得到两个初始的图像排名序列。
2.为了将分别使用文本特征和视觉特征得到的初始图像排名序列相融合,本文提出了两种合并策略:基于排名分数的合并策略和基于排名位置的合并策略。在实验部分,我们将两种合并策略进行了比较。
3.在图像的排序结果具有较高相关性的同时,我们还期望图像排序结果有较高的多样性,为此,本文给出了一种图像多样性惩罚贪婪算法。该算法通过迭代,逐步消减图像排序中与排在其前面的图像具有高相似度的图像的分数,从而使最终的图像排序结果在具有较高相关性的同时兼具多样性。
最后,实验分别在P@n、MAP、NDCG和Average Image等测度上证明了模型的有效性。