论文部分内容阅读
聚类分析作为数据挖掘的主要方法之一,越来越引起人们的重视。所谓聚类是将一组对象分成若干类,使得同一类内的对象尽量相似,不同类的对象尽量相异。由于聚类在现实生活中应用越来越广泛,因此研究如何提高聚类的效率具有实际的意义。如果聚类在分析数据时所需时间太长,或者需要的存储量太大,即使最好的聚类算法也没有太大的实用价值,而且不确定数据的引入更是大大增加了聚类的难度。对不确定数据集进行聚类分析是数据挖掘领域中的一个重要的研究热点,现实生活中对不确定数据的分析也有很重要的应用价值。由于数据存在不确定性,就需要计算每个对象和它的簇代表点之间的期望距离,计算期望距离是相当耗时的,因为每个对象的概率密度函数是不同和任意的,计算大量的期望距离是影响算法效率的主要原因。因此ck-means算法的提出有效的提高了不确定对象的聚类效率,但是当聚类的样本很大时,则聚类代价还是很高。本文通过分析现有的不确定聚类算法,利用k-d树及CF树结构进行改进,进一步提高不确定聚类算法的效率。论文的主要内容包括以下几点:(1)介绍了数据挖掘及聚类的基本概念与主要方法(2)介绍了不确定数据聚类的相关概念,不确定数据聚类的经典算法uk-menas算法及其剪枝算法,以及ck-means算法(3)提出了基于k-d树的改进的ck-means算法,详细地介绍了k-d树及改进算法的实现过程,有效的提高了聚类的效率(4)提出了基于CF树的改进的ck-means算法,详细地介绍了CF树的建树及重建规则及改进算法的实现过程,有效地提高了聚类的质量及效率(5)实验部分通过模拟数据验证了改进算法的效果及两个改进后的算法的效果比较,并讨论其现实意义(6)总结,在回顾本文研究内容的同时,也对将来的研究工作做出了展望