论文部分内容阅读
高维数据特征提取(Feature Extraction)是数据挖掘的一个重要数据预处理过程.由于当前出现了越来越多的"高维"数据,如多媒体数据、蛋白质数据等,直接对这些数据进行操作的计算量非常大,不仅要耗费大量的时间,而且其运算量往往会超出机器的容许范围.特征提取是从高维数据的原始特性中提取出较少的一些特征,用来表示这些数据.这样,就能够大大降低对它们进行诸如聚类、可视化/最近邻搜索等操作的计算复杂度.该文首先分析了当前具有代表性的三种特征提取算法——Fastmap算法、Bourgain算法及Cofe算法,并对它们各自的优、缺点及计算复杂度等方面进行了比较.其次,该文提出了一种基于数据类别数及各类代表元素等启发式信息的高维数据特征提取算法.该算法克服了Bourgain算法不具有现实可行性及Cofe算法降维效果不佳的缺点,对于M类高维数据、可使数据的维数降至「logM」.该算法可直接适用于已知数据类别数及各类数据代表点的情况.再次,为了使该算法具有更广泛的实用性,该文又提出了基于聚类算法的参考点选取方法,针对实际高维数据的特征提取实验结果表明,该文提出的算法具有很好的特征提取效果及较低的时间复杂度.最后,针对MDS方法在特征提取时不具有增量性的缺陷,该文提出了一种基于神经网络的增量式方法.该方法首先使用MDS方法对训练集进行特征提取,然后训练BP网络,再使用训练结果对其余数据进行增量式处理.