论文部分内容阅读
信息爆炸时代,每天都会有海量的数据产生出来,许多组织(如超市、银行、电信公司)及一些数据采集系统每天都产生大量的数据,而且此类应用数据来自于多节点的分布式网络环境,所以,如何处理海量数据,如何处理分布式数据流近来受到了越来越多的关注。现如今,分布式数据流挖掘还处于研究探索阶段,如何开发出挖掘的算法和模型来提高数据挖掘的质量或者挖掘的效率是尤为重要的。 传统的数据挖掘技术的研究包括聚类、分类、关联规则等方面,针对分布式数据流的挖掘技术的研究也分布在这几个方面。其中,聚类分析作为数据挖掘的一项主要功能和任务,成为数据挖掘中的一个主要的研究领域。由于数据流本身的特性造成的诸多限制,传统的聚类算法不能直接运用到数据流上,目前在对单数据流的数据流挖掘聚类的研究上已经提出了很多模型和算法,可以在前人的研究基础上进行优化和改进,使之适用于分布式数据流挖掘环境。 针对分布式数据流聚类的问题,本文主要完成了如下的研究工作: (1)本文给出了挖掘相关技术的介绍和挖掘方案的形式化描述,针对分布式数据流的自身特点,给出了相关的定义和描述。 (2)提出了一个核心代表点的生成算法(KPoints_Selected Algorithm,KPSA),并由此提出了一个核心代表点的挑选模型(KPoints_Selected Model,KPSM)。在局部站点的处理上,对数据流采用k-means(Local k-means algorithm,LKA)算法生成局部模式,对每一次产生的局部模式利用KPSA生成核心代表点集合,进而上传给中心站点生成全局模式。 (3)在中心节点,提出了一个全局聚类算法(Global KPoints BasedClustering,GKBC),通过对上传的核心代表点与中心节点自身生成的核心代表点的增量式聚类,进而产生全局模式及全局概要。 (4)提出了一个基于核心代表点的分布式全局聚类模型(DistributedGlobal KPoints Based Clustering Model,DGKCM) (5)本文对GKBC所产生的全局模式与相关的分布式数据流聚类算法进行了对比实验。实验说明本文所提出的模型和算法有效地降低了通讯代价,保证了较高的精度,挖掘的精度与数据集成的挖掘精度具有一定程度的相似性,并且高于模式集成的精度。