基于Grassberger熵估计的互信息层次聚类算法研究

来源 :兰州大学 | 被引量 : 4次 | 上传用户:zzyu888888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘领域的主要方向之一,属于无监督学习方法。层次聚类作为聚类分析中的一部分,能够有效处理数据噪声和离群样本,并且不受初始值的影响,在生物医学、疾病诊断和病情分类等领域有着广泛的应用。层次聚类的一个重点问题是距离矩阵的度量方法。相比欧氏距离,互信息由于可以有效度量样本间的非线性关系,并且适用于类别型数据,因而更适用于生物医学领域的聚类分析。然而,生物医学数据集的高维小样本特性往往会导致传统的互信息估计方法产生较大偏差,并最终影响到互信息层次聚类的有效性。为了实现在高维小样本生物医学数据中更为准确地估算互信息,进一步提升层次聚类的性能,本文一方面在引入互信息测量作为层次聚类中距离度量的基础上,采用一种适用于小样本数据集的Grassberger熵估计方法(Grassberger entropy estimator)并推导出了基于Grassberger熵估计的互信息估算方法用以解决互信息的估算在小样本情况下偏差较大的问题。另一方面,本文结合基于Grassberger熵估计的互信息估算方法和基于互信息的层次聚类分析,进一步提出一种改进的互信息层次聚类算法——基于Grassberger熵估计的互信息层次聚类算法。通过在四个具有高维小样本特性的生物医学数据集上验证算法的有效性,实验结果表明,与K-means聚类、基于欧氏距离的凝聚型层次聚类、基于朴素熵估计和基于Miller-adjust熵估计的互信息层次聚类算法相比,本文提出的基于Grassberger熵估计的互信息层次聚类算法在Jaccard系数、Rand指数、FM指数等聚类性能指标方面都有显著提升。因此,本文提出的算法在一定程度上解决了聚类分析的上述问题,能更好的对生物医学数据集进行聚类分析。
其他文献
电池放电调节模块(BDR:Battery Discharge Regulator)作为电源控制器(PCU:Power Conditioning Unit)的重要组成部分,起着调节太阳电池、蓄电池和卫星载荷间功率平衡的作用,是
阿坝州地处川藏高原东部核心地带,独特的地理环境和生态类型令生长的甜樱桃品质优异,知名度高,具有很强的市场竞争力。甜樱桃作为阿坝州的生态特色产业之一,其稳健发展,经济
想象在七月的天空里孤独坐满了时光  在七月的孤独中红色的石头也流出血如泣如诉  该失去的都会失去就像七月的火光烧红了疲惫的脸膛  你不招手也不言语石头沉沉落满心坠落黑夜  你站在海边突然看到蓝色的花朵在海洋里燃烧的赤裸裸  你少女的芬芳和着蓝色的火焰和蓝色的天空  让异乡少年在七月里化作一块红色的石头  五月属于欢乐六月属于期待七月属于孤独  五月的流水是暮春的一瓢清凉  六月的绿叶是森林的一束希
期刊
这些日子,小油纸伞一直在书架的玻璃后静静地站着,就像一个女子持手在腰间等候着什么。    家里有一把很小很小的油纸伞,往年北京庙会上都会卖的那种,很早的时候就想买上一把,说白了就是想学一回古代淑女的样子,轻罗小步,一袭长发,撑起油纸伞,走在落英缤纷中。然而“轻罗”似乎是不符时代的;“小步”既要有一种修养,又要在闲适生活中;“长发”我却总是留不起來;何况“淑女”二字又实在与我大相径庭。就买把伞做个样
由于对理性思维的内涵缺乏系统认识,当前教学中常将其片面地等同于理解和运用科学概念与原理的能力,这易导致教学问题类型与教学策略单一化。厘清理性思维各组成要素的相关性
托马斯·品钦是美国后现代文学最重要的作家之一,《梅森和迪克逊》是他的重要作品之一。这部小说充斥着滑稽幽默的恶搞、古灵精怪的人物、妙不可言的对白与搞怪荒诞的剧情。