论文部分内容阅读
随着信息技术的快速发展,越来越多的数据呈现出高维性和非线性,通过数据降维挖掘数据的本质逐步引起了学者们的广泛关注。与降维方法很少考虑数据几何结构不同,流形学习能够发现隐藏在高维数据中的低维流形结构,广泛应用于数据可视化、模式识别、图像处理和图像或文本信息检索。本文在查阅分析国内外文献资料的基础上,就各种流形学习方法及其在数据降维中的应用展开研究,具体工作如下:1.阐述各种经典流形学习方法,特别是等距映射算法,并对算法进行了总结和比较。以两个数据集为例,直观反映了流形学习数据降维的效果。2.从基于测地线距离的流形学习出发,描述了测地线距离理论。并针对ISOMAP无监督、不能生成显式映射函数等局限性,提出了SE-VQ-ISOMAP算法。改进的算法引入了类别信息,在迭代优化处理距离矩阵时引入矢量量化地标点,并把RBF作为函数基,得到降维方法的显式映射表示。实验结果表明,降维效果快速、稳定,识别率也高于ISOMAP及诸多改进算法。3.提出了利用半监督流形学习的SS-KDA、SDONNP和Reg-SS-ISOMAP方法。SS-KDA用标签数据最大化不同类的分离性,同时用无标签数据估计数据的本质几何结构提高了数据降维效果;SDONNP遵循了ONPP的正交性质,考虑类间和类内几何以及邻域信息的类间关系;Reg-SS-ISOMAP首先利用训练样本的标签样本构建K-CG图,得到近似样本间测地线距离,并作为特征向量代替原始数据点;然后将测地线距离作为内核,用半监督正则化方法代替MDS算法处理特征向量;最后利用正则化回归模型构建目标函数,得到低维表示的显式映射。实验结果表明,降维效果稳定,识别率高,显示了算法的有效性。4.针对现实获取的数据集呈现的复杂多流形特性,提出了Multi-ISOMAP算法。首先采用适用于多流形的邻域图构建方法和测地线距离计算方法,然后利用Sammon映射来保持最短路径,最后根据近邻的局部切空间的相似度,判断测试样本和新样本所属的流形。实验结果表明,算法很好地适用于多流形数据集,显示了良好的泛化能力。