跨媒体表达与排序联合优化理论与方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:maxyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上多媒体数据的日益增长,通过一种模态数据检索另外一种模态数据(例如,以文本检索图像)的跨媒体检索具有广泛的应用并日益受到关注。跨媒体排序是跨媒体检索中的一个重要研究问题,即如何将用户最需要的(即最相关的)跨媒体信息排序在返回列表的最前面。然而,成功的跨媒体排序需要解决两大挑战:一方面来自于多媒体数据底层特征与其高级语义的不一致性,称之为语义鸿沟(semantic gap);另一方面来自于不同类型的多媒体数据来自于不同的特征表达空间,其相似度不可比,称之为异构鸿沟(heterogeneity gap)。针对上述两方面的挑战,本文对不同类型的跨媒体排序样本(人工标注排序样本和点击排序样本)进行深入研究,提出了一系列面向跨媒体表达和排序的联合优化算法,克服了传统跨媒体检索中表达和排序两个过程割裂学习这一不足。该研究的动机在于通过对构造的排序损失函数优化来提升跨媒体表达的鉴别能力,学习得到跨媒体数据的统一表达,同时促进跨媒体检索中的排序性能。  具体而言,本文的主要工作可以总结为如下几个方面:  传统文本检索中,为了捕获文本数据所包含的隐语义(同时解决传统的“一词多义”和“一义多词”问题),将文本中的单词嵌入到一个低维隐空间是一种经典的方法。本文提出将低秩嵌入的思想引入到基于列式(Listwise)的排序学习方法中(即结构化支持向量机),在对跨媒体排序样本的排序测量指标直接进行优化过程中,同时优化学习跨媒体数据的降维表达,从而使得跨媒体表达和检索排序在同一个模型框架下进行优化学习。于是,这一优化学习得到的模型不仅能获取跨媒体数据在隐空间下的语义表达,同时该语义表达是对提升跨媒体检索排序性能进行优化的。  当不同检索方向的排序样本存在且可用时,本文研究了同时优化两个检索方向(例如文本检索图像和图像检索文本)排序样本的经验约束(即双向排序学习),使得学习得到的参数模型能更好地刻画两种不同类型数据在隐空间下的语义表达,且对两个检索方向上的排序性能进行联合优化。这样学习得到的表达和排序模型不仅同时支持两个不同检索方向的检索排序,而且比仅对单个检索方向排序进行优化的方法具有更好的排序性能。  随着深度学习展现其对多媒体数据进行语义表达的能力,本文提出了一种以跨媒体排序样本来学习异构数据在同一个低维语义空间表达的端到端(end-to-end)的深度学习方法。这一方法同时结合了深层特征学习和跨媒体排序学习的优点,以克服模态内数据之间的语义鸿沟和模态间数据之间的异构鸿沟,使得跨媒体数据的表达学习和排序在同一个框架下进行联合优化。该方法不仅学习得到了多模态异构数据通过非线性映射在同一特征空间的高级语义表达,而且学习得到的表达对异构数据之间的跨媒体排序具有较强的鉴别性能力。  检索点击数据是一类特殊的排序样本,给定一个检索请求,搜索引擎会返回一系列结果,如果某个返回文档被用户点击得越多,则直观上认为该文档与查询请求之间的相关性越高。通过随机游走来对跨媒体点击数据(作为点击二部图)进行建模,并用深度神经网络结构来对不同模态数据从底层特征到高层语义表达进行建模,本文提出了一种新的方法对跨媒体点击数据的表达建模和检索排序进行联合优化。模型学习得到的跨媒体表达能精确地捕获查询文本和图像之间的相关关系,即同时考虑了点击二部图中顶点之间的显式和隐式的连接。此外,学习得到的映射函数能应用到新的查询文本和新的图片以支持跨媒体排序。本文借助一个商业图像搜索引擎的点击数据(约1170万查询文本和100万图像)对算法进行了分析,验证了所提出的模型取得了更好的跨媒体排序性能。  本文以互联网上抓取的海量跨媒体信息作为应用测试数据,构建了一个跨媒体信息检索系统原型,并在系统原型上初步实现了上述提出的跨媒体表达与排序算法,验证了上述算法在实际跨媒体检索应用中的实用性。
其他文献
动态目标检测是视频监控的重要研究内容之一,其主要任务是从视频序列中将运动对象迅速准确地检测出来,其结果直接影响到整个视频监控系统的整体效果。摄像平台的不稳定是造成动
学位
随着网络技术和计算机技术的不断发展,办公自动化系统得到了迅速发展,并被广泛应用于政府机关、企事业单位的日常工作中。因此,开发一个成功的办公自动化系统,对大幅度提高团体工
学位
音视频数据作为一种动态、直观、形象的数字媒体承载了大量丰富的语义信息,越来越多地出现在各类信息服务和应用场合,如何自动而高效地从大量音视频数据中挖掘出有效信息,理解其
学位
近年来,推荐系统的研究变得极为火热,这主要因为,推荐系统能从大数据中提供个性化信息给用户,而这些数据往往是非常嘈杂和难以利用的。传统的方法是利用“用户-物品”的评分矩阵
由于安全评估技术是理解系统安全状态的重要手段,国内外组织和机构先后制定了一批安全评估标准和方法,典型的标准包括美国的TCSEC[5],美国标准局的NIST-SP800[8],欧洲的ITSEC[6]
学位
用户规模万级以上的网络信息系统数量呈指数级增长态势,是当前互联网发展的一个基本事实。用户使用系统的行为往往受到网络中其他个体以及群体使用方式的影响。因此,如何在网络
学位
随着移动计算技术的发展,功耗问题已经成为制约嵌入式系统发展的重要因素之一。动态电压调节(DVS)技术是一种通过在线调节系统工作电压/频率的低功耗技术,在保证系统性能的同时
与传统的人工抄表系统相比,自动抄表(Automatic Meter Reading)系统具有高效、便捷、准确等优点,已广泛应用于水、电、气等公共服务事业中。针对AMR系统在无线通讯、数据安全和
随着计算机的普及以及互联网的迅猛发展,知识获取的来源、数量和形式也随之发生了根本的变化.目前,在Internet的数据中蕴含了海量的知识,同时也含有大量的垃圾信息,完全人工
伴随着移动网络和移动终端性能的不断提高与完善,手机游戏增长势头远远超过其他移动数据业务,已经逐渐成为一个生机勃勃而又潜力巨大的文化产业。现阶段的手机游戏发展滞后于手