论文部分内容阅读
随着移动互联网、物联网和云存储的高速发展,多模态数据(包括图像、文本、视频和音频等)已经成为互联网上的主要信息载体,其数据规模呈现爆炸式增长。这些庞大的多模态数据资源蕴含着丰富的经济价值和社会价值,为国民经济与社会发展带来了新的挑战和契机。因此,如何实现不同模态数据间的检索成为信息检索领域的研究热点。跨模态哈希检索通过构造哈希函数,将不同模态数据的高维特征映射成低维的二进制哈希码,并在汉明空间中保持了原始数据间的近邻关系,具有存储所需空间小和检索速度快的优点,在跨模态检索领域得到广泛关注。跨模态哈希检索面临底层特征和高级语义间的鸿沟,这是该研究领域的难点之一。同时大部分方法局限于使用表征能力有限的手工特征。本文围绕这些难点进行深入研究,提出了两种基于耦合关系的跨模态哈希方法。论文的主要工作如下:(1)提出了一种基于关联耦合的跨模态哈希检索方法。考虑到多模态数据的结构异质,该方法摈弃了将不同模态数据直接投影到共同汉明空间的做法,而是将各模态数据投影到对立模态的汉明空间,以此将不同模态关联耦合。同时,根据矩阵分解能挖掘隐语义空间的特性,以矩阵分解为框架,利用哈希码对原始数据进行重建嵌入。该方法通过挖掘隐语义空间,既提高了特征的表征能力,又有效克服了语义鸿沟,使各模态数据能够紧密耦合。实验结果表明该方法不仅可以取得理想的检索准确率,而且检索效率较其他方法也有较大提升。(2)提出了一种基于深度耦合的跨模态哈希检索方法。为了解决手工特征表征能力有限的问题,首先分别利用CNN-F和MLP这两种深度学习网络提取多模态数据的特征,然后在网络末端输出哈希码,将特征提取和哈希学习整合到统一框架中。该方法从两个方面对多模态数据进行耦合,一方面利用深度卷积网络挖掘表征能力更强的特征,另一方面利用由类别标签生成的相似度矩阵,从两个角度对跨模态哈希码进行成对约束。实验结果表明该方法的检索效果优于同类方法。