论文部分内容阅读
聚类分析是机器学习中很重要的一个研究领域。聚类分析所涉及的领域包括:数据挖掘、统计学、机器学习、空间数据库技术、生物学等。由于各应用数据库所包含的数据量越来越大,聚类分析已成为数据挖掘研究中一个非常活跃的研究课题。在众多聚类算法中,模糊聚类算法是最常用的算法之一。至今,文献中仍然不断有新的模糊聚类算法出现。
本文对基于划分的模糊聚类算法进行了研究,从理论上证明了Lees算法并不是FCM算法的改进算法,应该属于PCM型算法。属性选择和加权是聚类分析中另一个重要的研究课题。本文提出了一种新的基于属性加权的模糊C均值聚类算法。之后又给出了使用该算法时的参数选择理论规则。
除此以外,本文还对聚类分析的应用领域—文本挖掘进行了研究。将文中所提出的新算法应用于文本,并对实验结果做了分析。全文共分六章,各章的主要内容如下:
第一章介绍了聚类的定义、分类情况以及与本文联系较为密切的两种基于划分的聚类算法。确定本文的研究范围和基本框架。
第二章在对PCM型算法介绍之后,对一种模糊聚类算法进行了深入研究,从理论上证明了该算法的正确归类。
第三章首先介绍了属性加权聚类算法的研究现状,尤其是对两种属性加权C均值算法进行了详细介绍。在此基础上,提出了一种新的属性加权的模糊C均值聚类算法,并对该算法目标函数的海森矩阵进行分析,得出使用该算法时的参数选择规则。之后,对属性加权模糊C均值算法和前文重点介绍的两种加权聚类算法进行了实验比较。
第四章介绍了文本挖掘的一些基本概念和常用技术。具体分析了文本挖掘尤其是文本聚类的研究意义。重点介绍了文本挖掘中的预处理步骤和策略,对自动分词、特征表示以及特征提取进行了详细阐述。
第五章中,将本文提出的属性加权模糊C均值算法(AWFCM)应用于文本,实现了文本聚类过程中的预处理操作,并分别使用C均值和AWFCM算法对预处理所得的文档表示矩阵进行了聚类,之后根据实验结果得出了有意义的结论。
第六章对全文总结,讨论了模糊聚类算法研究中存在的问题,以及该类算法应用于文本挖掘时所面临的挑战,给出了下一步的研究目标。