论文部分内容阅读
随着的计算机技术、数据库技术和网络技术的迅速发展,我们已置身于一个数据爆炸的时代。我们迫切需要新的、强有力的数据分析方法和技术以解决“数据丰富,但信息贫乏”的尴尬局面。数据挖掘指从大型数据库或数据仓库中挖掘出隐含的、未知的、新颖的、极有潜在应用价值的信息。它融合了数据库、人工智能、机器学习、统计学、高性能计算等众多领域的理论和技术的研究成果。聚类分析已经成为数据挖掘中的一个非常活跃的研究方向。目前主要的聚类算法有基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法,或是这些方法的组合和改进。目前大部分聚类算法都是基于距离(或密度)的静态的聚类算法。引入其它学科的背景知识为我们提出新的聚类方法和技术提供了新的思路。在前人研究的基础上,我们把数据对象置入物理学的动力学背景中,把数据对象抽象为物理粒子,将牛顿万有引力和牛顿运动定律的思想引入到聚类分析中,沿着物理粒子之间相互作用的万有引力—→粒子受力运动发生位移变化—→粒子通过学习不断修正自己的速度和位置这个研究主线对聚类算法进行了更进一步的研究和探讨。本文提出了基于层次的万有引力聚类算法(HGBCA)、基于网格的万有引力聚类算法(GGBCA),两算法反映了比较密集的数据对象拥有较高的聚类能力,这样就修正了聚类标准仅和距离有关的不足;通过考察空间物理粒子受力运动引起位移的变化,提出了基于运动的万有引力聚类算法(MGBCA),把位移作为聚类的重要标准,数据对象的聚类过程表现为物理粒子不断向聚类中心运动的过程。最后介绍了运动的、会学习的、模糊的智能聚类算法——粒子群模糊聚类算法(FPSO),从而使聚类过程由孤立、静止的过程转化为相互联系的、运动的、通过学习不断改进的智能聚类过程。通过性能分析和结果对比实验,证明以上算法提高了执行速度和聚类效果,更真实的反映了事物的自然本质,提高了聚类质量。