论文部分内容阅读
随着多媒体与互联网技术的迅猛发展,图像数据的种类和数量与日剧增,使得基于内容的图像检索(Content-Based Image Retrieval, CBIR)技术吸引了国际学术界和商界的广泛关注,并在军事侦查、生物医学、信息安全、遥感技术,及艺术鉴赏等多个领域中发挥着重要作用.然而,图像的视觉内容与其欲传达的语义信息之间存在严重的语义鸿沟,进而导致现有的CBIR技术难以达到应用的要求.交互式语义推理技术将人的参与引入到检索过程中,并借助统计学习方法推断图像的语义信息,已成为了可有效缩小语义鸿沟、改善图像检索性能的重要手段之一.本文对交互式语义推理的技术要点及其发展现状进行了深入、系统的探讨和综述,并针对该领域中亟需解决的3个关键问题进行了研究,包括增强推理模型在小样本训练集上的泛化能力、设计面向不对称数据集的语义推理方法,以及合理、高效地结合长、短期学习.本文的创新性研究成果可概括如下:(1)提出了基于偏袒性半监督提升框架的SVM主动学习算法SA2S2.该算法结合了半监督学习、集成学习和主动学习三种方法的技术特点(本文称之为混合学习范式),以增强学习系统的泛化性能.此外,采用了偏袒性集成思想,使得学习系统对语义相关图像给予更多的关注.实验结果表明,混合学习及偏袒性集成策略可有效改善CBIR系统的检索性能.(2)提出了基于偏袒性半监督集成框架的SVM主动学习算法(SE)2A.类似于SA2S2,该算法亦采用了混合学习和偏袒性集成策略.但不同之处在于,(SE)2A根据图像库中正、负样本之间的不对称分布特点,使用非常简单的学习策略挑选未标记图像,并采用了并行的集成结构,从而大大降低了混合学习的计算复杂度.实验结果表明,(SE)2A学习速度快、泛化能力强,在性能上优于目前一些常用的语义推理方法.(3)通过对已有长、短期学习方法的分析和总结,指出了结合使用长、短期学习技术亟需解决的关键问题--检索结果的“错位(dislocation)问题”.针对该问题,提出了一种视觉内容与隐含语义之间的协同学习算法CoSim.该算法首先从反馈日志中挖掘图像间的语义相关性,并以此形成先验知识;然后借助这些先验知识为短期学习挑选可信的未标记图像,以增强视觉相似性学习;最后,协同相似性由语义相关性和视觉相似性之间的非线性组合产生,并用于图像检索.理论分析及实验结果表明,CoSim可有效处理检索结果的“错位”问题,且其性能明显优于已有的一些交互式语义推理算法.