网络社区图像检索中的排序研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:lvsby2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像社区是随着web2.0和多媒体技术的发展与普及而产生的一类社交平台,作为一种新兴的网络应用,每天都有成千上万的用户将他们的本地图像上传至网络并添加标签、相应的描述等与人们共享。有效的组织、管理以及如何从如此海量的图像库中检索出所需要的图像已经成为学术界和产业界日益关注的问题。   基于内容的图像检索(content-based image retrieval,简称CBIR)利用图像的底层视觉特征(颜色,纹理,形状等)来代表图像的内容,图像的视觉内容被用来索引。CBIR面临的主要困难是语义鸿沟问题,即图像的底层视觉特征不能有效的表达图像的语义内容;基于文本的图像检索(text-based image retrieval,简称TBIR)主要依赖于图像所处的网络上下文环境来判断图像的主题内容,例如可以首先对图像的文件名、ALT标签文本、锚文本以及用户提供的标签、描述等图像周边文本建立索引,然后进行基于文本的图像检索。TBIR的局限在于图像的周边文本质量并不高,存在大量的噪声,很难判断哪些文本是真正与图像内容相关,用户添加的文本内容存在主观性和模糊性。在本文中,我们充分利用了图像的文本信息和视觉信息,通过将两者有效的融合来解决上面提到的问题。   另一方面,由于互联网环境下图像数量爆炸式的增长,检索返回的结果相当多,然而人们通常只关注排在前面的结果,因此“好”的结果排在前面是对一个图像检索系统的基本要求。这个“好”体现在返回的图像在具有高相关性的同时具有多样性。在一些只考虑了相关性的研究中,每幅图像与查询词的相关性是独立考虑的,这样,结果中图像与图像之间的关系就被忽略了。一个返回很多相关但是重复图像很多的结果,虽然取得了较高的相关性,但是能提供给用户的信息量却很少;再者,基于查询词的检索方式不可避免的会具有二义性,不同的用户键入的同一个查询词可能具有不同的检索意图,为了最大限度的满足不同用户的不同的检索需求,检索结果的主题多样性也很重要。为此,本文给出了一个贪婪的图像多样性惩罚算法,保证最终的图像检索排序结果在具有较高相关性的同时兼具多样性。   本文的研究着眼于网络社区中的图像检索排序问题,主要有以下贡献:   1.选择并提取图像的文本特征和视觉特征,使用形成的特征分别计算图像之间的文本相似度和视觉相似度,然后基于得到的相似度将图像集合构建成两个个相似度图:文本相似度图和视觉相似度图。在这两个相似度图上各自使用随机游走模型,从而得到两个初始的图像排名序列。   2.为了将分别使用文本特征和视觉特征得到的初始图像排名序列相融合,本文提出了两种合并策略:基于排名分数的合并策略和基于排名位置的合并策略。在实验部分,我们将两种合并策略进行了比较。   3.在图像的排序结果具有较高相关性的同时,我们还期望图像排序结果有较高的多样性,为此,本文给出了一种图像多样性惩罚贪婪算法。该算法通过迭代,逐步消减图像排序中与排在其前面的图像具有高相似度的图像的分数,从而使最终的图像排序结果在具有较高相关性的同时兼具多样性。   最后,实验分别在P@n、MAP、NDCG和Average Image等测度上证明了模型的有效性。
其他文献
互联网时代的到来推动了网络计算模式的转变,从并行计算、分布式计算、网格计算发展到了云计算。面对云计算的到来,虚拟化技术似乎成为云计算的得力助手,使云计算具有了更高
基于生物体信息处理机制模型以及算法研究已成为人工智能领域的一个新的热点,它体现了现代科学研究中关于多学科、多领域间的交叉融合、互相促进以及相互渗透的特点。生物体
验证码技术是当今计算机安全领域与人机交互领域的前沿课题之一,在互联网领域有着广泛的应用。日常使用的验证码大部分是基于视觉图片验证码方式,给残疾人中的视力障碍者造成
随着众多企业开始应用项目管理的方式管理企业中的各项活动,作为管理科学的一个分支,项目管理已经成为企业中不可或缺的一项内容。在具体的项目管理中,如何使资源在不同任务
工作流管理是实现企业过程集成、提高企业运行效率和柔性的一种支撑技术,是计算机科学、管理科学、自动化科学等多学科领域关注与研究的热点问题之一。它根据一系列规则,文档
XML(Extensible Markup Language)是被W3C基于标准的广义标记语言所创建,被用作定义语义标记。在Web服务、电子商务、数字图书馆等诸多网络相关应用领域已经成为描述数据的事
网格中的资源管理和任务调度很复杂,传统的资源管理和任务调度方法已经不能适应网格环境。将经济学模型引入到网格体系中,把经济学的方法应用于网格资源管理和任务调度,是近
无线传感器网络中的节点以自组织多跳的方式运作,作为底层硬件,传感器节点在信号的感知、收集、传输过程中均存在能量消耗。由于传感器节点能量有限,必须采取高效的节能技术提高
无线传感器在国民经济、科学研究等领域已经应用地越来越广泛,同时它所面临的安全威胁也越来越大,但是目前针对无线传感器网络的安全防范研究相对较少。   本文将重点考虑无
Internet发展到至今已经完全渗入到人们生活工作的各个方面。作为半结构化语言XML已经成为一种最重要的数据载体,在Web服务、电子商务、数字图书馆等诸多网络等领域的数据描