论文部分内容阅读
聚类分析作为一种无监督学习方法,是数据粒化以及信息压缩的一个基本工具,同时也是机器学习研究和数据挖掘应用中的一个重要内容。迄今,针对不同的应用领域,研究者已经提出了多种聚类算法,并在信息检索、图像处理、金融欺诈、医疗诊断和生物信息学等领域得到了广泛的应用。然而提出的算法大多需要在算法运行前指定聚类个数,而存大部分实际应用中,聚类个数是不可能事先知道的,而且也很难预先指定聚类个数。因此,确定聚类算法中的聚类个数在聚类分析中具有非常重要的意义。本文针对聚类分析中聚类个数确定问题进行了较为深入的研究,主要内容如下:(1)针对分类型数据,运用信息熵给出了类与类之间的相异性度量,结合划分和层次聚类的思想,提出了一种分类型数据聚类个数的确定算法,并在UCI数据集上通过实验验证了该算法的有效性。(2)针对混合型数据,运用信息熵把数值型数据和分类型数据中类与类之间的相似性度量有效地统一起来,通过扩展分类效用函数给出了一个混合型数据聚类结果的有效性评价指标,提出了一种混合型数据的聚类个数确定算法,并在UCI数据集上通过实验验证了该算法的有效性。(3)基于B/S架构技术,设计并实现了一个聚类分析数据挖掘系统。该系统的主要功能包括数据预处理、聚类个数确定、初始聚类中心选择、聚类算法和聚类结果可视化和系统管理等。系统采用了组件式开发技术,提供了友好的图形界面和开放的编程接口,保证了系统的通用性和可扩展性。本文的研究成果为分类型或混合型数据的聚类算法中类个数的选择提供参考,进一步丰富了数据挖掘中聚类分析的研究。