论文部分内容阅读
在对数据进行分类时,有效的特征提取方法是取得良好分类效果的重要前提。然而,由于现代信息的海量性、非结构性以及非线性等特征,使得特征提取成为模式识别、机器学习等领域的新挑战。虽然传统的特征提取方式在数据降维方面已取得较大进展,但面对非线性和线性流形领域仍存在许多问题亟待解决。在此背景下,流形学习作为一种有效降维方式,受到研究者广泛关注。本文围绕经典流形学习方式,对半监督数据、数据的局部相关性定义、数据子模式以及噪声数据等进行研究,具体研究成果如下:(1)结合原始高维空间与低维特征空间中未标记样例的分类信息,提出一种新的表情识别方法。首先,使用标准的标记传播算法得到数据的初始类标矩阵,然后运用NPE算法得到数据在低维特征空间的流形结构,最后,更新数据在特征空间的类标矩阵。由于更新标记矩阵的过程考虑了数据的流形特征,因此新的标记矩阵比源空间的初始标记矩阵更准确地描述了数据的特征结构。实验结果证明了该方法的有效性。(2)为了更准确的描述类内数据的局部相关性关系,提出一种新的类内离散度矩阵,进而提出一种局部相关判定近邻保持嵌入算法。该方法定义的局部相关保持类内离散度矩阵不仅包含数据的局部保持特征,同时有效保持数据近邻相关性信息,更准确提取数据特征。基于此,对MMNPE算法进行改进,更准确地提取数据的类判别特征,为下一步的分类过程提供良好的基础。数据集Yale和ORL上证明了该方法的有效性。(3)提出一种改进的子模式局部保持投影算法,主要思想是将不同类别的数据划分子集,对每个子集划分子模块,对子模块分别运用LPP算法。该方法考虑了个体间流形的差异性,认为不同个体具有其独特的流形,提出将所有人脸图像划分子集,将相同类别的图像组成一个子集合,因此子集合内部的图像具有较高的相似性和更加紧凑的流形结构。实验表明该算法能提高识别率,减少运行时间。(4)当数据存在混叠问题时会造成SVM过学习和泛化性能的减弱,针对此问题提出一种基于信息熵数据修剪的支持向量机:EB-SVM。用信息熵的概念对训练集进行修剪,很大程度上删除了噪声和冗余数据,降低了分类边界附近数据的混淆程度。实验表明,与传统的SVM和KCNN-SVM相比,EB-SVM的泛化性能更高。