论文部分内容阅读
现实世界不是静止不动的,而是随着时间在不断变化。时间序列一般是维数比较高且按时间次序进行排列的数据。它的生成过程极易受周围环境的影响,并且有部分噪声,时间点一般是连续且均匀分布的。聚类是对没有类标签的实例根据相似度进行分组,相似度大的实例分为一组,不同组之间的实例相似度最小。时间序列聚类普遍应用于工业、农业、交通、手势识别等行业。它的应用实例有很多,如投资组合风险管理、自然语言理解、交通流等。本文以时间序列数据为研究对象,探讨了利用不同的流形学习算法对时间序列数据进行聚类以及聚类融合,从而提高聚类性能。本文的主要研究工作如下:(1)基于流形学习的时间序列聚类研究。时间序列数据通常不仅数据量大,而且是高维的,直接对原始数据集进行聚类,得到的聚类性能一般不会很好。如何有效的对时间序列降维,而且保留原数据集的主要信息,是本文的一个研究点。针对时间序列这个特点,对来自不同领域的10个时间序列数据集,分别使用三种流形学习方法,局部保持投影(Locality Preserving Projection,LPP)、局部线性嵌入(Locally Linear Embedding,LLE)、邻域保持嵌入(Neighborhood Preserving Embedding,NPE)将其维数约简,并对降维后的数据用K-均值算法进行聚类。这三种流形学习方法既可以对高维数据进行维数约简,也可以试图去发现高维数据中存在的低维流形结构。将三种流形学习算法的实验结果分别与对原始数据直接K-均值聚类、使用主成分分析(Principal Component Analysis,PCA)降维后再聚类、使用分段聚合近似(Piecewise Aggregate Approximation,PAA)降维后再聚类的结果进行配对样本t检验,实验显示三种流形学习算法的聚类性能要好于这些方法。(2)基于流形学习的时间序列聚类融合研究。只使用一种聚类算法也许实验结果会不稳定,如今融合多个聚类的结果已成为一种趋势。聚类融合是将多个聚类算法或一种聚类算法通过不同的初始化或参数获得的多个聚类成员使用共识函数进行融合,获得最终的聚类结果。它能比较好地提升聚类算法的稳定性。对来自不同领域的10个时间序列数据集使用LPP、LLE、NPE进行维数约简,降维后的数据多次利用K-均值聚类得聚类成员,将这些聚类成员利用加权投票法进行聚类融合。将这三种算法的结果分别与对原始数据直接K-均值聚类、使用PCA降维后再聚类、使用PAA降维后再聚类的结果进行配对样本t检验,实验显示三种流形学习算法的聚类性能显著好于这些方法。