论文部分内容阅读
随着科学技术的飞速发展,人类获取知识能力越来越强。近些年来随着无线传感器网络、路由器等设备的出现,人们获取数据的能力得到了极大的提高。出现了一种新的数据模型—数据流模型。该模型中待处理的数据不再被静态、固定地存储在可多次、随机访问的介质中,而是以一种动态、流式的形式出现。访问数据的方法被限定为进行顺序的、一次或有限次的访问。目前关于数据流挖掘的研究主要有数据流聚类、分类、频繁模式挖掘等等。本文通过研究传统的基于密度和基于网格的聚类方法,发现传统的基于密度的聚类方法要求多次访问数据,并且不能动态地生成聚类结果;而传统的基于网格的聚类算法虽然能一次读取数据,并且能很快的处理数据,但它降低了簇的质量和精确性。传统的基于网格和基于密度的聚类算法均不能满足数据流聚类的要求。本文结合传统聚类算法的一些方法提出了一种采用树型概要结构的密度网格树数据流聚类算法DG-Tree(Density and Grid-Tree Algorithm)。该算法利用数据流聚类算法CluStream中的处理框架,把聚类分为微聚类和宏聚类两个过程。在微聚类过程中,通过把数据流按属性值分配到一棵树中,消除了空网格对聚类结果的影响,同时针对数据流聚类中,近期的数据往往比久远的数据更受关注的特点,引入了时间衰退模型;在宏聚类过程中,对微聚类中生成的树中的叶子节点进行密度聚类,通过设立噪音密度阀值函数和更新周期,不仅可以有效的发现噪音叶子节点,还减少了密度聚类中对叶子节点密度更新的计算量,减少了算法的时间消耗。通过在KDD Cup 99数据集上的实验表明,相比DBScan算法和CluStream算法,DG-Tree算法在时间效率上有很大提高。