论文部分内容阅读
聚类分析是一类常用的无监督的机器学习方法,其在无任何数据类别信息的条件下,根据当前数据点之间相似性或者不相似性,对数据进行划分。聚类分析应用十分广泛,应用领域涉及天文学,生物信息学,文献计量学以及信息安全等多个学科。聚类分析从提出到备受关注与广泛应用,其得到了快速的发展,每一年都有不同的聚类分析算法被提出,但是这些算法往往只针对特定的数据集有效,很难具备应用宽泛性,而且绝大多数算法都需要人为地设定参数不能自动地完成聚类。因此,如何设计出能够处理不同分布的,不同维度的数据集的高效的自动的聚类算法依然是当前研究一个热点问题。基于密度的聚类分析算法不同于绝大多数其它类型的聚类算法,它不是以数据点间距离的远近为相似性判断依据,它主要根据数据集中数据点的密度信息完成数据集的划分。基于密度的聚类分析算法可以发现任意形状和任意分布的类簇,它克服了绝大多数基于距离相似性的聚类算法只能识别球型的类簇的缺陷。密度峰值聚类算法DPC(Clustering by Fast Search and Find of Density Peaks)是基于密度的聚类算法近年来最具代表性的原创算法之一,该算法思想模型简单、参数较少、具备基于密度的聚类算法大多数优势属性而且聚类结果正确性也较高,是一种很优秀的基于密度的聚类算法。此外,在文章中作者设计了一种启发式的方法用来协助用户识别类簇中心点,并将其命名为决策图。通过数据点集生成的决策图,用户可以手工地选择出类簇中心点,当类簇中心点确定以后,每一个数据点分配与比其密度值大且距离其最近的数据点相同的类别标签。虽然作者设计了决策图来协助用户选取合适的类簇中心点,但是这种方法依然需要人为手工的选取阈值,不恰当的阈值将不能识别出最佳的类簇中心点,将直接导致聚类结果变得不准确。此外,基于简单的阈值选择来识别类簇中心点的方法很难识别低密度区域的类簇中心点,因此如何设计出一种自动的高效的识别类簇中心点的算法使密度峰值聚类算法在无人为干预的情况下很好地完成聚类是值得研究的。此外,在实验中我们发现密度峰值聚类算法在处理复杂的数据集或者高维度的数据集时,传统的高斯核函数密度估计方法所估计的密度存在不准确的现象,这会直接导致聚类结果的不准确。基于密度峰值聚类算法所面临的以上两个问题,我们设计了两种改进的密度峰值的聚类算法,这两种基于密度的聚类算法分别是:一种新的基于势能值估计密度值的密度峰值聚类算法和一种基于统计分析的自动识别类簇中心点的密度峰值聚类算法。前一个方法创新点主要是通过势能值计算和双K邻居的方法来计算数据点密度,后一个方法创新点主要是借助数据的二维分布,通过统计分析和区间估计的方法来自动识别类中心点并完成聚类。这两种算法模型都比较简单,但是在处理各种类型数据集时具有很好的效果和很高的效率,每种算法都有各自独特的优势。为此在本课题中我们将分开单独对他们进行介绍,并且将这两种算法与原始的密度峰值聚类算法分别在人造数据集和真实数据集下进行了聚类并比较和分析其聚类结果。