论文部分内容阅读
图像是高维数据,本身蕴含了大量复杂的信息和特征,如何有效从高维复杂图像数据中挖掘内在规律并进行高效的分析识别,一直是计算机科学领域面临的基本问题。近年来提出的稀疏表示及其字典学习理论已经成为了图像识别领域研究的热点,并且得到了快速的发展。高维图像的特征信息往往是非线性的,这种非线性结构中往往蕴含丰富的利于提升识别率的鉴别信息,稀疏表示字典学习模型被应用于图像识别问题时却往往忽略了图像的内在几何结构信息。基于图嵌入框架下的流形学习方法,可以有效地挖掘嵌入在高维数据中的低维子流形,揭示隐藏在高维数据中内在的几何结构与规律。因此,本文对结合图嵌入理论和字典学习理论的图像识别算法及其应用进行了深入的研究,主要工作概括如下:(1)提出了一种图嵌入约束下的双字典学习方法(Graph embedding dictionary pair learning,DPL)同时学习一对综合字典和投影字典。该方法考虑到图像的局部几何结构中往往包含关键的判别性信息,在构建图拉普拉斯矩阵的关键步骤中,与一般的直接用样本构建图拉普拉斯矩阵的方法不同的是,结合字典原子与字典原子轮廓(即编码系数的行)之间的一一对应关系,采用字典原子的局部几何结构构建图拉普拉斯矩阵,间接将样本的局部几何结构映射到编码系数中。尽管在目标函数中引入了图嵌入约束项,但是仍能求得闭式解,在不增加原DPL模型的计算复杂度的同时增加了模型的判别性,对编码系数没有采用0l或1l范数约束,计算效率高。在四个常用图像识别数据集上进行验证,提出的方法获得了较高识别率。(2)提出了一种结合图嵌入的多级判别性字典学习方法(Multi-level discriminative dictionary learning,MDDL)。利用不同视图的特征表示中编码系数的内在关联,提出了一种多级判别性字典学习方法,将其用来解决跨视图行人重识别问题。首先,在图像块级别,结合图像的局部几何结构,在字典学习目标函数中增加了字典原子的图嵌入约束,通过自适应学习图拉普拉斯矩阵,确保编码系数保持与样本相似的局部几何结构,可以获得判别性更高的字典对。其次,在图像水平区域和图像级别的字典学习模型中,分别引入了一个特征映射矩阵,该矩阵可以描述不同视图下同一行人图像编码系数之间的内在关系,可以极大地提高编码系数的灵活性。最后,将提出的算法在两个被常用的行人重识别数据集上进行验证。实验结果表明,提出的方法不仅可以降低不同视图下不同分辨率带来的影响,也极大提高了学习字典对的表示能力和判别性。