论文部分内容阅读
目前在数据挖掘和机器学习领域存在许多分类算法和聚类算法。但使用聚类模型应用于分类的算法仍然很少有人研究。这一思想起源于上世纪80年代,由于当时计算机计算能力低下等原因,该主张一直未能得到深入研究。将聚类模型应用于分类有着明显的实际意义,聚类算法能够发现隐藏在数据集中的潜在信息,如样本间的相似度,样本的分布特征等等,抽取这些信息用于指导样本分类,方法直观,符合人类思维逻辑。 本文针对将聚类模型应用于分类算法这一思想,提出了两种实用高效的分类算法:二叉聚类生成树分类算法和多叉聚类生成树分类算法。这两种算法的本质是:迭代使用k-means系列算法将数据逐层划分,进而生成一棵富含多种信息的聚类树。将此聚类树作为模型,采用最近邻分类算法思想对新样本进行类别划分。实验验证算法在一些机器学习实验数据集上有较高的精度和性能。 本文提出的二叉聚类生成树分类算法能够发现数据集合中的各个独立的聚类,能够消除离群点干扰并提高分类精度。多叉聚类生成树分类算法具有抵御噪声变量和消除噪声点影响等能力,并能够实现在子空间下的数据分类。 最后本文还实现了一个具有良好性能的实验系统,对两种算法各种性能进行评测。系统可以完成数据读取、数据转换、模型构建、结果的可视化显示等多种功能。