论文部分内容阅读
随着科技的进步发展,信息变得日渐丰富和复杂化,数据也呈现出高维发展的趋势。然而,在这些高维数据所包含的特征中,往往只有很少一部分是有用的。因此,使用维数约简方法来剔除高维数据中的冗余特征和噪声是非常有必要的。特征选择是一种常用的维数约简方法,其根据一定的评价方式选择出具有代表性的特征来表示原始数据,从而达到降维的目的。目前,特征选择方法已经成为了数据挖掘、机器学习、模式识别等领域的研究热点,同时处理高维数据也给研究者带来了挑战。近年来,一些新的特征选择算法被提出。然而,它们却忽略了数据的几何结构信息和判别信息,因此没有达到更好的特征选择效果。围绕这些问题,本文对一些特征选择算法展开了研究。本文的主要贡献及研究内容如下:1)提出一种基于非负谱学习和稀疏回归的双图特征选择算法(NSSRD)。首先,该算法在联合嵌入学习和稀疏回归的特征选择框架下引入了特征图,同时保留了数据空间和特征空间的几何结构信息。其次,该算法对特征空间和数据空间的谱嵌入矩阵施加了非负约束,确保了矩阵中元素的非负性。此外,该算法对稀疏变换矩阵施加了l2,1-norm约束以保证特征排列的稀疏性,从而为特征选择提供准确的判别信息。最后,该算法采用了交替迭代的优化方法来求解变量,使得优化过程更加快速有效。2)提出一种基于子空间学习的图正则特征选择算法(SGFS)。首先,该算法采用了基于子空间学习的特征选择框架,利用了矩阵分解技术的优点。在此基础上,本算法引入了图正则思想,保留了数据特征流形上的几何结构信息,用于指导特征选择矩阵的学习。接下来,该算法对特征选择矩阵施加l2,1-norm稀疏约束,保证了特征排列的稀疏性并避免了平凡解的出现,从而为特征选择提供更准确的判别信息。3)提出一种基于局部判别稀疏子空间学习的特征选择算法(LDSSL)。首先,该算法在子空间学习的特征选择框架下引入了局部判别模型。该模型同时保留了数据的几何结构和判别信息。因此,它既可以提高算法的判别能力,同时也利用了数据的局部几何结构信息。由于局部判别模型属于线性模型,本算法将其进行核化,使之适用于非线性的情况。然后,该算法引入了l1-norm约束,保证了特征选择矩阵行的稀疏性,进一步提高了算法对特征选择的判别能力。