论文部分内容阅读
在当今这个信息大爆炸的时代,随着科学技术特别是计算机技术的飞速发展,大规模的高维数据大量涌现,且这些数据往往具有非线性结构,如何从这些数据中分析提取有价值的信息变得越来越重要,其中很多的数据分析方法正是基于降维模型,例如人脸识别问题,其本质就是降维问题,另外由于维数灾难,高维数据降维也成为数据挖掘等任务中必不可少的步骤。根据是否利用有监督的标注信息来帮助降维,可将所有的降维技术分为有监督降维和无监督降维。主成分分析(PCA)就是一种经典的无监督降维模型,在大量的现实数据分析任务中得到了广泛应用,然而无监督降维方法往往不能利用有监督的标注信息,这对于很多提供了标签信息(对应回归任务的实数值标签和对应分类任务的离散标签)的数据集,或者对于一些未被标注但标签信息能够很方便地基于一些重要的本征属性得到的数据集(例如人脸和数字字符数据库中能够很容易地标注样本)来说,是对有价值的标注信息的浪费,大量的研究已经表明,这种标注信息能够帮助提高降维模型的性能,线性判别分析(LDA)模型就是一个最好例证。因此在降维模型中考虑附加的标注信息的思想直接驱动了研究者对有监督降维模型的研究,目前已经出现了很多的有监督降维模型,并在一些应用取得了不俗的性能,但依然存在着一些问题,例如不能充分利用标注信息、算法复杂度较高等。本文主要讨论贝叶斯统计框架下基于高斯过程的降维模型,提出了一种新的无监督降维模型和两种新的有监督降维方法,并通过模拟和现实数据集检验了这三种新的降维模型。本文的主要内容可概括为:1).概述了目前常见的降维模型。目前已经存在大量的降维模型,本文尝试通过将这些降维模型分为无监督和有监督模型来分别介绍,并且进一步地,还按照是否显式地建模低维空间和高维观测空间之间的关系将每一类模型再次细分为基于谱方法和基于隐变量模型的降维方法,此外还在每一个小类中详细介绍了一到三个具有代表性的模型,并据此概括更多的同类模型及其优缺点。2).提出了一种新的无监督降维模型及其两类扩展。这种新的基于隐变量的降维模型显式地利用薄板样条函数建模隐变量和观测变量之间的非线性关系,从而获得了薄板样条模型所特有的属性,即特别适合于那些隐空间维度较低,且/或存在潜在旋转和平移的数据集。此外,该模型还可被简单地看做是一种使用特殊核函数的高斯过程隐变量模型。两种模型扩展,即动态扩展和后向限制进一步为模型施加限制,在特定任务中显示出了更佳的性能。3).提出了一种新的有监督降维模型。通过对现有基于隐变量模型的有监督降维方法的分析,提出了一种的新的高斯过程隐变量模型的有监督扩展,该模型不仅可使用隐变量模型来解释,而且还与传统的有监督降维框架中的半参数模型完美地联系起来,该模型不仅在降维能力上到了提升,而且与现有有监督模型相比,其算法复杂度也得到了降低。此外,更进一步提出了一种基于新提出的有监督降维模型的扩展,这种扩展模型在训练样本较大时能够进一步提高降维模型的性能。4).提出了一种新的梯度学习模型。该模型可以看做是一种间接的基于谱方法的有监督降维模型。已有的梯度学习模型的目标是通过直接学习样本集的梯度来间接地对数据进行有监督降维,并推断变量之间的相互关联信息。新提出的梯度学习模型通过将已有的直接梯度学习模型利用高斯过程泛化到贝叶斯统计框架中,提供了原始梯度学习模型所不具有的误差估计,并且也提高了模型的精度。