论文部分内容阅读
时间序列方面的数据搜索和数据挖掘聚类问题应用是近几年来的热门问题之一,它广泛运用于各方面的研究。比如说:商业领域、社会经济、科学研究、艺术和环境、能量、医学等。目前国内外处理时间序列聚类的方法主要有三类:一类是基于原始数据的方法;一类是基于特征提取的方法;另一类是基于模型的方法。本文选择基于模型的聚类方法:先求出时间序列的AR模型,然后计算模型系数的LPC(Linear Predictive Coding),再计算LPC系数的欧氏距离来确定模型之间的不相似性,根据这个不相似性来对时间序列进行聚类。本文尝试了各种聚类方法,其中基于LPC系数的CLUSTER聚类算法使用SAS系统的现成模块,而自己编程实现了两种聚类方法:k-means方法与W-k-means方法。聚类实验先在人工数据集上进行,说明LPC系数的有效性,再用1929年-1999年美国25个州平均个人收入的数据做实验,并与传统方法作比较。实验结果表明:基于LPC系数的CLUSTER聚类算法结果稍差,基于LPC系数的k-means聚类结果比传统聚类结果好,而基于LPC系数的W-k-means聚类结果又比基于LPC系数的k-means聚类结果更进一步。