论文部分内容阅读
随着互联网的快速发展及数据库的广泛应用,信息的供给能力和对信息的分析能力之间的矛盾日益突出,人们迫切需要一种能够对数据信息进行深入研究和分析的自动化技术。数据挖掘技术正是在这种信息广泛而知识贫乏的情况下应运而生的。聚类分析是数据挖掘中的一个重要分支,属于无监督学习的范畴,是人们认识现实世界的一种重要方法。聚类分析可以作为一个独立的工具来获得数据的分布情况,观察每个类的特点,以便于集中对某些特定的类做深入的分析。此外,聚类分析还可以作为其它算法的预处理步骤。传统的聚类分析是一种硬划分,分类的类别界限是分明的,具有非此即彼的性质。然而在现实世界中,许多事物并没有严格的区分界限,因此在对事物进行聚类分析时就必然伴随着模糊性,模糊聚类分析技术由此产生。Web日志挖掘是数据挖掘领域中一个新的研究热点,Web日志中记录了大量网络用户的行为信息,通过对Web日志的挖掘能够发现用户访问行为特征和潜在规律,分析得到的特征和规律可以识别潜在的客户群,提高网站服务质量。将聚类分析技术应用于Web日志挖掘中,通过深入分析用户的访问行为可以将具有相同兴趣的用户自动分类以及发现被相同用户访问的页面组,进而可以帮助优化网站结构、推荐个性化服务等。同时由于Web数据的无结构化特征,在进行聚类之前必须对日志数据进行预处理。本文在介绍数据挖掘、聚类分析、模糊理论及Web日志挖掘的基本概念和相关知识的基础之上,主要针对模糊聚类分析中的模糊C-均值(FCM)聚类算法及其存在的不足进行了深入的研究。模糊C-均值聚类算法是模糊聚类分析中应用最广泛的算法之一。该算法是一种基于目标函数的聚类算法,并通过极小化目标函数来求得最优解。算法设计简单,应用范围广,但同时也存在着许多需要解决的问题,如:需要人为定义聚类原型参数、聚类结果易陷入局部最优、对球状簇以外的数据集的发现能力差等。在众多研究成果的基础上,本文针对FCM算法存在的不足,进行了深入的研究,并通过具体的分析过程给出了相应的改进措施。文章主要从两方面对算法进行了改进:一方面,在选择初始聚类中心时按相应的规则,利用搜索数据矩阵的方法在全局范围内有目的的选取,有效降低了算法受初始值影响易陷入局部极值的可能性。另一方面,采用冗余聚类中心的方法先将大簇分割成多个小簇,再按一定条件将相邻的小簇合并。将改进后的算法应用于Web日志挖掘中,得到了有效的用户聚类和页面聚类结果。通过实验结果可看到改进后的FCM算法减小了对初始聚类中心的依赖,聚类结果更加精确。