论文部分内容阅读
在对类似于专利战略分析系统这种复杂系统的研究中,一个非常棘手的问题就是高维数据的降维问题。决定现实世界演化的背景机制通常是非线性的,传统的线性降维方法(如主成分分析法(PCA))在把高维数据映射到低维空间时,通常不能保留原高维数据的内在非线性结构和特征。因此非线性的方法(如局域线性嵌入(LLE)、等距映射(Isomap)等)应运而生,它们的优点是具有较少的参数需要设置,而且使用非迭代的方法去求解从而可以避免陷入局部极小。本文中我们使用局部线性嵌入(LLE)对高维数据进行降维。主要研究内容包括:
(1)介绍了各种流行的高维数据降维方法以及各自的特点;并对经典的降维算法进行了比较。
(2)重点介绍了局部线性嵌入(LLE)算法原理,对LLE算法的邻域选择进行改进。LLE算法邻域选择采用欧氏距离,在处理高维非线性数据时,有不完善之处。新算法,既基于测地距离的LLE算法和基于图代数的LLE算法,改进了LLE的邻域测度,更适合高维数据的降维。
(3)针对局部线性嵌入算法中参数选取问题,通过对两种自动选取最佳参数值的方法:简单方法、分层方法进行实验比较与分析,归纳出在实践中确定邻域参数的启发式策略。
(4)采用四组标准数据集,从可视化角度,对本文提出的两种新算法进行实验,分析实验结果。
实验证明,新算法在可视化性能上明显提高。这表明优化邻域结构是一种重要的方向,未来我们可以设计更好的邻域优化算法,改造更多的基于邻域的降维算法。本文的研究是对专利战略分析系统的进一步研究和完善。