论文部分内容阅读
随着网络技术和数据库技术的发展,各个领域的信息量急剧增长,需要处理的数据规模越来越大;同时,对数据集实时处理的需求不断加大。这就促使了海量动态数据的出现。目前大多数聚类算法处理海量动态数据不仅需要消耗大量的时间和空间资源,并且挖掘效果不理想,其有效性和可扩展性受到了限制。在这种情况下,增量聚类算法应运而生,有效的解决了海量动态数据的聚类问题。为了实现动态、增量聚类,首先,对基于密度和自适应密度可达聚类算法(Clustering Algorithm Based on Density and Density reachable, CADD)进行了改进:第一,为密度可达包成员设置标志值,极大的提高了聚类效率;第二,改进半径和密度的计算方式,避免了重复的计算;第三,编程实现聚类结果的可视化,可以直观的评价聚类效果。实验结果表明,改进后使得算法的复杂度明显减小。其次,在CADD算法改进的基础上重点研究了两方面内容:(1)根据CADD算法的特点,提出了基于密度可达的增量聚类算法——ICADD算法,由于该算法是非批量聚类方式,实验表明虽然聚类效果比较好,但是效率较低;(2)根据层次聚类算法BIRCH中聚类特征的概念,提出了子簇特征的概念和子簇的相似准则(包括空间位置相似性和空间分布相似性),并进一步设计、实现了基于子簇特征的增量聚类算法——ICSCF算法。此外在计算数据点密度时,还引入了抽样技术。由于ICSCF算法采用批量处理方式,理论分析和实验结果证明,该算法不仅具有较高的聚类效率,同时,通过将数据集分割、逐步动态聚类,还能实现对大型数据库的聚类分析,有良好的可扩展性,特别是在空间聚类(如图像处理)方面能够发挥重要的作用。