基于密度峰值聚类的两种改进算法的研究

来源 :兰州大学 | 被引量 : 6次 | 上传用户:wareware1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一类常用的无监督的机器学习方法,其在无任何数据类别信息的条件下,根据当前数据点之间相似性或者不相似性,对数据进行划分。聚类分析应用十分广泛,应用领域涉及天文学,生物信息学,文献计量学以及信息安全等多个学科。聚类分析从提出到备受关注与广泛应用,其得到了快速的发展,每一年都有不同的聚类分析算法被提出,但是这些算法往往只针对特定的数据集有效,很难具备应用宽泛性,而且绝大多数算法都需要人为地设定参数不能自动地完成聚类。因此,如何设计出能够处理不同分布的,不同维度的数据集的高效的自动的聚类算法依然是当前研究一个热点问题。基于密度的聚类分析算法不同于绝大多数其它类型的聚类算法,它不是以数据点间距离的远近为相似性判断依据,它主要根据数据集中数据点的密度信息完成数据集的划分。基于密度的聚类分析算法可以发现任意形状和任意分布的类簇,它克服了绝大多数基于距离相似性的聚类算法只能识别球型的类簇的缺陷。密度峰值聚类算法DPC(Clustering by Fast Search and Find of Density Peaks)是基于密度的聚类算法近年来最具代表性的原创算法之一,该算法思想模型简单、参数较少、具备基于密度的聚类算法大多数优势属性而且聚类结果正确性也较高,是一种很优秀的基于密度的聚类算法。此外,在文章中作者设计了一种启发式的方法用来协助用户识别类簇中心点,并将其命名为决策图。通过数据点集生成的决策图,用户可以手工地选择出类簇中心点,当类簇中心点确定以后,每一个数据点分配与比其密度值大且距离其最近的数据点相同的类别标签。虽然作者设计了决策图来协助用户选取合适的类簇中心点,但是这种方法依然需要人为手工的选取阈值,不恰当的阈值将不能识别出最佳的类簇中心点,将直接导致聚类结果变得不准确。此外,基于简单的阈值选择来识别类簇中心点的方法很难识别低密度区域的类簇中心点,因此如何设计出一种自动的高效的识别类簇中心点的算法使密度峰值聚类算法在无人为干预的情况下很好地完成聚类是值得研究的。此外,在实验中我们发现密度峰值聚类算法在处理复杂的数据集或者高维度的数据集时,传统的高斯核函数密度估计方法所估计的密度存在不准确的现象,这会直接导致聚类结果的不准确。基于密度峰值聚类算法所面临的以上两个问题,我们设计了两种改进的密度峰值的聚类算法,这两种基于密度的聚类算法分别是:一种新的基于势能值估计密度值的密度峰值聚类算法和一种基于统计分析的自动识别类簇中心点的密度峰值聚类算法。前一个方法创新点主要是通过势能值计算和双K邻居的方法来计算数据点密度,后一个方法创新点主要是借助数据的二维分布,通过统计分析和区间估计的方法来自动识别类中心点并完成聚类。这两种算法模型都比较简单,但是在处理各种类型数据集时具有很好的效果和很高的效率,每种算法都有各自独特的优势。为此在本课题中我们将分开单独对他们进行介绍,并且将这两种算法与原始的密度峰值聚类算法分别在人造数据集和真实数据集下进行了聚类并比较和分析其聚类结果。
其他文献
帕金森症(Parkinson’s Disease,PD),是一种典型的神经系统变异性疾病。PD的主要病理特征为中脑多巴胺(dopamine,DA)能神经元出现变异退化,纹状体内神经递质,即多巴胺数量显
建筑施工行业一直以来都是高危行业,其中地铁区间盾构法施工工程在建设施工领域更是有着高精尖的特点,对于安全管理水平要求较高,且与以人工开挖为主要方式的其他施工方法相比有着较大的安全风险管理差别,施工安全风险较高且事故后果严重,直接影响着作业人员的生命安全、周边环境的安全稳定以及施工企业的品牌形象,需要结合施工现场情况进行具体研究。本文以北京地铁BTNY项目工程区间盾构法施工作业作为研究对象,对其中的
台上一分钟,台下十年功,优秀的话剧作品并不是一朝一夕就能完成的,是靠话剧演员的辛苦练习以及教师的培养不断提高其舞台综合技能的结果。教学过程中,为了让话剧演员呈现出更
自从开展了十八大以后,为了响应广大人民的号召,从国家领导人到普通人民群众都开始严格去遵守与执行对党的管理、管制。切实做到无论是从党员自身内部的想法、态度,还是外部
<正>2017年12月20日新浪科技新浪科技讯北京时间12月20日消息,据国外媒体报道,从看护婴儿的"临时保姆"到围棋大赛中打败世界冠军,人工智能机器人已无所不在,无所不能,它们正
会议
聚类是一种无监督学习方法,不需要任何先验知识,仅根据数据内部固有结构信息将数据聚类成不同类簇,发现数据潜在分布,在数据爆炸的今天,备受研究者关注,且已广泛应用于数据挖
目的通过检测SUMO特异性蛋白酶1(SUMO-specific proteases 1,SENP1)、小泛素样修饰蛋白(small ubiquitin-related modifier-1,SUMO1)在肺发育过程中的表达变化,明确SENP1、SUMO1参与调控肺发育,再进一步通过体外培养Ⅱ型肺泡上皮细胞(AECⅡ),研究AECⅡ分化过程中SENP1表达变化,和抑制SENP1对细胞生长及分化的影响
绿道的建设不仅为市民的出行提供了诸多便利,同时也改善了市民的生活环境。而中心城区作为建筑和人口高度密集的地区,绿道的建设受到用地、景观、交通等多种因素制约,因此如
目的:胚胎成功植入依赖于子宫内膜与胚胎之间的同步发育,二者同步化的真正物质基础是蛋白质。本研究运用蛋白质组相关技术,分析妊娠早期人胚胎绒毛和子宫蜕膜组织蛋白质组,从
<正>肺癌的发病率和病死率逐年升高,已成为对人类健康和生命威胁最大的恶性肿瘤之一[1-2]。化疗是肺癌的主要治疗方法,化疗可以延长患者生存期和改善生活质量,但同时化疗引起