论文部分内容阅读
图像分类算法是计算机视觉、模式识别和机器学习领域一个重要的研究问题。图像分类算法是从视觉图像中抽取一种或者多种特征信息(如:颜色、纹理、形状和空间信息等),通过分析统计这些图像特征,把图像划分到相应的视觉类别中。随着多媒体和互联网技术的高速发展,图像分类算法日益重要,具有广阔的应用前景,可应用到高层次语义理解、海量图像检索、视频智能监控、人机交互、医学诊断、虚拟现实等多个领域。在图像分类算法中,视觉图像特征的有效构建和分析,尤为重要。一方面,基于全局图像特征的图像分类算法已经得到广泛研究,但是全局特征对光照、背景、角度等环境因素的变化非常敏感。与全局图像特征相比,基于局部特征的图像表示能够在一定程度上解决这些问题。另一方面,如果直接把图像特征当作向量处理,将忽视其所处空间的拓扑结构。因此为了解决这个问题,我们提出利用黎曼流形理论,分析图像特征的空间结构。而黎曼流形是一种有力的空间分析工具,通过把具有一定空间结构的图像特征描述子投影到黎曼流形上,能更加有效地分析结构化的图像特征。其中常用的黎曼流形有:格拉斯曼流形、李群流形和Stiefel流形等。本文在国内外已有的研究基础上,对基于黎曼流形的图像分类算法及相关应用进行深入研究。本文主要研究内容和创新性工作概括如下:(1)基于序列图像块的自回归滑动平均模型大多数现有的图像分类方法考虑到图像外观特征信息,却忽略了图像内部空间信息。针对此问题,本文引入一个基于序列图像块的图像表示方法,能够综合考虑图像局部特征和图像内部的空间位置关系。然后针对每个图像所对应的序列图像块,构建自回归滑动平均模型(Auto-Regressive and Moving Average Model, ARMA模型),进行模型参数估计。因此每个图像都可以编码为序列图像块,构建相应的图像自回归滑动平均模型。在以上研究内容的基础上,将针对模型参数空间分析、图像分类等问题,开展后续研究工作(2)基于格拉斯曼流形和自回归滑动平均模型的图像分类算法首先根据基于序列图像块的自回归滑动平均模型理论,把每个图像编码为序列图像块,构建图像自回归滑动平均模型,其参数子空间,可投影到格拉斯曼流形上进行相关图像分类算法研究。然后基于格拉斯曼流形上的度量算法,来构建一个格拉斯曼流形核函数,进行图像分类算法应用研究。最后在若干公开图像数据集(如:MNIST、USPS、Yale和ORL等)上验证此算法的有效性。(3)基于李群流形和自回归滑动平均模型的人脸图像分类算法为了有效地处理人脸图像中的复杂非线性变化,基于李群流形空间理论和分析方法,提出李群核函数来处理人脸识别、头部姿态识别等图像分类问题。我们基于序列图像块的人脸图像表示,构建自回归滑动平均模型,同时获取人脸图像的外观特征和空间信息。自回归滑动模型的参数可以参数化为一种特殊结构的上三角矩阵,其子空间结构可以构建为李群流形。基于李群流形分析的方法,对自回归滑动模型进行相似性度量,从而构建李群核函数。基于李群核函数的支持向量机分类器,进行人脸图像分类算法研究。在人脸识别和头部姿态估计等人脸图像分类问题上,最终的实验室结果显示本文所提出的算法能够超过其他人脸分析方法。(4)基于李群流形和正定对称矩阵判别分析的图像分类算法在李群流形的基础上,对正定对称矩阵进行判别分析,即:通过优化数据,把一个李群流形映射到另外一个低维的李群流形。具体来说,我们以正定对称矩阵空间(如:协方差矩阵)为例。正定对称矩阵是李群流形的一个具体例子,已经证明是一个图像特征表示的有效工具。基于图嵌入框架,通过优化类内紧密性和类间分离性,在李群流形上进行判别变换,从而优化李群流形上的数据结构。在维度降低的李群流形上,计算任意两个样本之间的测地线距离,构建对应的核函数,最后利用支持向量机进行图像分类算法研究。为了验证所提出算法的有效性,我们在五个公共数据集(如:Scene-15,Caltech101,UIUC运动场景,MIT室内场景和VOC07)上进行实验,均达到非常好的分类结果。