论文部分内容阅读
流形学习和半监督学习是当前机器学习领域的研究热点,已经受到越来越多研究者的关注。作为一种非线性的维数约减方法,流形学习能够有效地学习出高度非线性、属性强相关的高维流形数据的内在几何结构。流形假设是半监督学习中常用的一种基本假设,它是指处于一个很小的局部邻域内的样本具有相似的性质,这与流形学习中局部线性的思想是一致的。如果高维数据采样于一个低维流形且监督信息在流形上具有某种性质,那么借助流形学习思想,就可以用大量的无标记样本学习出数据的内在几何结构,然后利用这种结构和监督信息能够得到更好的半监督学习结果。
本文在分析了流形学习和半监督学习的发展现状和目前仍存在的问题的基础上,主要对流形学习和基于流形假设的半监督学习在降维和分类中的应用进行了研究,具体研究内容包括:
1、孤立点不敏感的流形学习研究:提出一种基于改进距离的孤立点检测方法用于降低孤立点对流形学习算法的影响。实验结果表明,相比于基于欧式距离的孤立点检测方法,该方法在样本分布不均情况下的鲁棒性更强。
2、流形学习邻域选取问题的研究:提出一种自适应邻域选取算法,在不指定全局邻域参数的情况下,根据数据集的结构自行选择每个点的邻域,使得流形学习算法在没有全局最优邻域参数的数据集上也能得到满意的结果。
3、有监督流形学习研究:提出一种有监督的最大方差伸展算法(S-MVU),该算法能够对多类流形数据进行处理,使得所得结果既能保持类间数据的区别,又能够恢复类内数据的流形结构。实验结果表明,相比于其他的有监督流形学习方法,该方法的适应性和可视化效果更好。
4、基于流形假设的半监督维数约减研究:提出一种基于局部与全局保持的半监督维数约减方法(LGSSDR),该算法能够很好地利用成对约束信息,并考虑到了给定数据集的流形结构,保持数据集的局部以及全局结构。另外提出一种基于局部重构误差与全局保持的半监督维数约减方法(LRGPSSDR),该算法通过最小化局部重建误差的方法来精确确定邻域图的边权值,对邻域参数的设置也不敏感。
5、基于流形假设的半监督判别分析研究:提出一种基于局部重构误差与全局保持的半监督判别分析方法(LRGPSSDA),该算法通过最小化局部重建误差的方法来精确确定邻域图的边权值,在保持样本局部结构的同时能够保持其全局结构,对邻域参数的设置不敏感,所得投影子空间的维数不受样本类别数的限制。
6、基于流形假设的半监督分类研究:提出一种基于鲁棒路径的半监督分类方法(SSCRPR),该方法利用鲁棒路径相似度获取标记样本及未标记样本的流形结构,然后构造鲁棒路径正则化项,分别通过线性代数方法和流形正则化框架得到线性及非线性分类函数。