论文部分内容阅读
随着互联网上多媒体数据的日益增长,通过一种模态数据检索另外一种模态数据(例如,以文本检索图像)的跨媒体检索具有广泛的应用并日益受到关注。跨媒体排序是跨媒体检索中的一个重要研究问题,即如何将用户最需要的(即最相关的)跨媒体信息排序在返回列表的最前面。然而,成功的跨媒体排序需要解决两大挑战:一方面来自于多媒体数据底层特征与其高级语义的不一致性,称之为语义鸿沟(semantic gap);另一方面来自于不同类型的多媒体数据来自于不同的特征表达空间,其相似度不可比,称之为异构鸿沟(heterogeneity gap)。针对上述两方面的挑战,本文对不同类型的跨媒体排序样本(人工标注排序样本和点击排序样本)进行深入研究,提出了一系列面向跨媒体表达和排序的联合优化算法,克服了传统跨媒体检索中表达和排序两个过程割裂学习这一不足。该研究的动机在于通过对构造的排序损失函数优化来提升跨媒体表达的鉴别能力,学习得到跨媒体数据的统一表达,同时促进跨媒体检索中的排序性能。 具体而言,本文的主要工作可以总结为如下几个方面: 传统文本检索中,为了捕获文本数据所包含的隐语义(同时解决传统的“一词多义”和“一义多词”问题),将文本中的单词嵌入到一个低维隐空间是一种经典的方法。本文提出将低秩嵌入的思想引入到基于列式(Listwise)的排序学习方法中(即结构化支持向量机),在对跨媒体排序样本的排序测量指标直接进行优化过程中,同时优化学习跨媒体数据的降维表达,从而使得跨媒体表达和检索排序在同一个模型框架下进行优化学习。于是,这一优化学习得到的模型不仅能获取跨媒体数据在隐空间下的语义表达,同时该语义表达是对提升跨媒体检索排序性能进行优化的。 当不同检索方向的排序样本存在且可用时,本文研究了同时优化两个检索方向(例如文本检索图像和图像检索文本)排序样本的经验约束(即双向排序学习),使得学习得到的参数模型能更好地刻画两种不同类型数据在隐空间下的语义表达,且对两个检索方向上的排序性能进行联合优化。这样学习得到的表达和排序模型不仅同时支持两个不同检索方向的检索排序,而且比仅对单个检索方向排序进行优化的方法具有更好的排序性能。 随着深度学习展现其对多媒体数据进行语义表达的能力,本文提出了一种以跨媒体排序样本来学习异构数据在同一个低维语义空间表达的端到端(end-to-end)的深度学习方法。这一方法同时结合了深层特征学习和跨媒体排序学习的优点,以克服模态内数据之间的语义鸿沟和模态间数据之间的异构鸿沟,使得跨媒体数据的表达学习和排序在同一个框架下进行联合优化。该方法不仅学习得到了多模态异构数据通过非线性映射在同一特征空间的高级语义表达,而且学习得到的表达对异构数据之间的跨媒体排序具有较强的鉴别性能力。 检索点击数据是一类特殊的排序样本,给定一个检索请求,搜索引擎会返回一系列结果,如果某个返回文档被用户点击得越多,则直观上认为该文档与查询请求之间的相关性越高。通过随机游走来对跨媒体点击数据(作为点击二部图)进行建模,并用深度神经网络结构来对不同模态数据从底层特征到高层语义表达进行建模,本文提出了一种新的方法对跨媒体点击数据的表达建模和检索排序进行联合优化。模型学习得到的跨媒体表达能精确地捕获查询文本和图像之间的相关关系,即同时考虑了点击二部图中顶点之间的显式和隐式的连接。此外,学习得到的映射函数能应用到新的查询文本和新的图片以支持跨媒体排序。本文借助一个商业图像搜索引擎的点击数据(约1170万查询文本和100万图像)对算法进行了分析,验证了所提出的模型取得了更好的跨媒体排序性能。 本文以互联网上抓取的海量跨媒体信息作为应用测试数据,构建了一个跨媒体信息检索系统原型,并在系统原型上初步实现了上述提出的跨媒体表达与排序算法,验证了上述算法在实际跨媒体检索应用中的实用性。