论文部分内容阅读
随着互联网、数字图书馆等的快速发展,在线资源库中的数字资源逐渐从单一的文本和数值媒体类型转变为包含越来越多的图像、音频、视频、动画等多媒体信息类型,特别是近几年来,基于Web2.0环境的视频分享(Youtube)、照片分享(Flickr)、博客(Blog)、播客(VBlog)等的出现使得任何人都可以在互联网上发布自己的文章、图片和视频信息,在线媒体信息的创作从少数人发布信息转变成大众化的媒体创作,从而带来了多媒体信息资源的爆炸式增长。
多媒体在日常生活中的重要性毋庸置疑,然而如何在海量多媒体资源库中寻找所需要的多媒体资源成为尚待解决的难题。因此,跨媒体检索(cross-media retrieval)近年来成为信息检索、计算机视觉、数据挖掘、数据库等领域的热点研究问题。
本文以基于Web的多媒体检索为应用目标,以跨媒体图像检索为具体应用实例,进行了以下研究工作:
首先,本文对跨媒体检索所涉及的相关领域进行了总结。特别地,将本领域常混杂使用的跨媒体检索和跨模态检索等概念进行了梳理。论文将跨媒体检索中的关键问题定位到跨媒体融合问题,并从特征层融合和结果层融合两个层次去研究融合策略,以跨媒体元搜索引擎作为基本的研究框架。
然后,基于图像检索比赛ImageCLEF2008的WikipediaMM任务,论文对实验平台上的超过150000张图像进行了跨媒体的检索实验。论文提出以Wikipedia为基本信息源,提取知识库以支持基于文本查询扩展的检索。另一方面,利用Yahoo!图像检索等搜索引擎,论文将基于图像内容的检索中查询样例扩展到以若干图像表示的概念,从而将图像内容检索问题转换为一个二元分类问题。对于前面的检索结果,本文使用结果集交叠统计特征来对多种媒体类型的检索结果进行融合。实验结果表明,本文提出的文本查询扩展方法、图像内容扩展检索方法、以及基于交叠的跨媒体融合方法均优于其他参赛队伍所提交的结果。
第三,本文提出了一种基于簇和交叠的二维跨媒体融合模型(BiDimFusion)。在这个模型中,本文对基于结果集纵向交叠的融合策略进行了进一步细化,提出基于局部交叠密度的跨媒体融合方法;同时,通过对图像样例的聚类分析,为隶属于相同簇的图像和查询学习出不同的自适应融合策略。实验结果表明,模型的每个维度都能显著改善检索性能,并且性能要优于仅基于局部交叠密度的融合方法和仅基于聚类的方法,在整体性能上也略胜目前较好的元搜索引擎融合模型。
最后,本文将前述的跨媒体检索方法用于现实的多媒体信息检索,设计并实现了一个跨媒体信息检索系统MSearch。该系统部分解决了现在多媒体信息检索中的媒体信息融合和系统实用化问题。这个系统包含多媒体查询构建与处理模块、文本检索模块、图像内容检索模块、跨媒体融合模块、互联网服务模块。Msearch系统还在中国联通奥运城市通的数据集上进行了应用,处理并检索了包括文本、图像、视频、地理信息数据等多媒体多模态数据,实际应用和实验表明系统在性能上能够达到较好的效果,能够满足实用化的要求。