论文部分内容阅读
随着信息技术的飞速发展,数据交互变得更加频繁,数据规模越来越大,结构也越来越复杂,如文本数据、图像数据、生物数据等,分析这些数据并得到对人们有用的信息,具有重要的现实意义。低秩表示(Low Rank Representation,LRR)作为一种经典的数据处理算法,可以很好的处理数据矩阵,并且能够对数据进行有效的降维,对噪声更鲁棒,当数据存在损毁时,LRR算法对数据具有很好的恢复作用,因此,算法自提出以后在很多领域被广泛应用。虽然低秩表示理论日趋成熟,但仍然存在一些不足。在基于核函数的低秩表示算法中,算法只能处理单一特征的非线性数据,当数据具有多个特征属性时,该算法并不能很好的处理。但是在现实生活中,人们需要处理的数据往往具有多个特征属性,传统的核函数低秩表示算法往往将这些数据转化为向量或者矩阵的形式,这不仅会破坏数据的空间结构,而且会丢失数据中的部分信息,导致数据分析不准确。针对传统的核函数低秩表示算法无法处理高维数据多特征属性问题,本文提出基于张量分解的高维数据鲁棒核低秩表示算法(Kernel Low-Rank Representation of High-Dimensional Data by Robust Tensor Decomposition,RTDKLRR)。一方面,通过构造高维数据,从而将数据张量表示,并将数据进行Tucker分解,保证数据的完整性;另一方面,利用核函数将分解后的非线性数据映射到新的特征空间,保证数据的线性可分。论文对RTDKLRR算法进行了理论分析和详细的推导,并基于交替方向法求解出算法的最优解。本文构造了模拟数据集和真实数据集对算法的有效性进行实验,并在数据集中掺杂噪声,验证算法对噪声的鲁棒性。本文采用聚类错误率作为算法的评价指标,将本文算法和现有的研究工作进行实验对比,验证本文算法的合理性。