论文部分内容阅读
聚类分析是数据挖掘领域的主要方向之一,属于无监督学习方法。层次聚类作为聚类分析中的一部分,能够有效处理数据噪声和离群样本,并且不受初始值的影响,在生物医学、疾病诊断和病情分类等领域有着广泛的应用。层次聚类的一个重点问题是距离矩阵的度量方法。相比欧氏距离,互信息由于可以有效度量样本间的非线性关系,并且适用于类别型数据,因而更适用于生物医学领域的聚类分析。然而,生物医学数据集的高维小样本特性往往会导致传统的互信息估计方法产生较大偏差,并最终影响到互信息层次聚类的有效性。为了实现在高维小样本生物医学数据中更为准确地估算互信息,进一步提升层次聚类的性能,本文一方面在引入互信息测量作为层次聚类中距离度量的基础上,采用一种适用于小样本数据集的Grassberger熵估计方法(Grassberger entropy estimator)并推导出了基于Grassberger熵估计的互信息估算方法用以解决互信息的估算在小样本情况下偏差较大的问题。另一方面,本文结合基于Grassberger熵估计的互信息估算方法和基于互信息的层次聚类分析,进一步提出一种改进的互信息层次聚类算法——基于Grassberger熵估计的互信息层次聚类算法。通过在四个具有高维小样本特性的生物医学数据集上验证算法的有效性,实验结果表明,与K-means聚类、基于欧氏距离的凝聚型层次聚类、基于朴素熵估计和基于Miller-adjust熵估计的互信息层次聚类算法相比,本文提出的基于Grassberger熵估计的互信息层次聚类算法在Jaccard系数、Rand指数、FM指数等聚类性能指标方面都有显著提升。因此,本文提出的算法在一定程度上解决了聚类分析的上述问题,能更好的对生物医学数据集进行聚类分析。