基于快速搜索和发现的密度峰值聚类算法研究与应用

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户：xipuwa

【摘要】

：

【作者】

：

吕闯

【出处】

：

浙江工业大学

【发表日期】

：

2020年02期

【关键词】

：

聚类算法密度峰值正序迭代并行计算数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近些年来,互联网飞速发展,人们在各行各业产生了海量数据,使得人们慢慢进入了真正意义的新时代—数据时代。因此,如何从存储的数据中挖掘其潜在的价值,以便能够更好地推动工业、商业、交通和医疗等领域的发展,为人类社会进步做出贡献,数据挖掘算法的研究成为了当代研究学者热门研究课题。聚类分析算法是在数据挖据领域中众多热门研究课题之一,它隶属于机器学习中无监督学习模块。在2014年,Alex Rodriguez和Alessandro Laio在Science杂志上发表了一篇名为通过快速搜索和发现的密度峰值聚类算法(Clustering by fast search and find of density peaks,CFSFDP)的文章,该方法在聚类算法领域另辟蹊径,克服了之前聚类算法只能识别和发现基于距离的圆形簇的缺陷,还可以对不同形状的簇聚类,而且对噪声不敏感。本文主要在以下几个方面进行改进:(1)首先,针对CFSFDP算法在确定聚类中心时,总是受人为主观因素的制约,使得聚类缺乏科学性和准确性,本文提出了一种基于正序迭代选择策略的密度峰值聚类算法。首先,对于决策函数中变量分布不均匀的情形,进行了归一化处理,使得决策函数中的两个参数ρ(局部密度)和δ(距离)分布均匀;其次,在确定聚类中心时,提出了一种正序迭代选择策略,即根据聚类核心点数目的变化趋势来搜索“拐点”,并以“拐点”之前的点作为聚类中心,完成聚类。通过实验证明,该方法在没有提高时间复杂度的同时,能够对任意分布形式的数据集进行聚类,有效提高了算法的适应性和聚类效果。(2)其次,针对CFSFDP算法在对数据集进行聚类时,由于其决策函数参数ρ(局部密度)和δ(距离)的计算,使得算法需要对整个数据集进行遍历,导致算法时间复杂度过高的问题,在Spark框架上实现了基于正序迭代选择策略的密度峰值并行聚类算法。该方法首先对待聚类数据集进行区间划分,使得各个区间的数据在本区间进行遍历,在各个区间独立分布完成ρ(局部密度)和δ(距离)的计算,之后在各个节点利用基于正序迭代选择策略的密度峰值聚类算法,进行聚类,最后对于各个区间聚类后的结果进行再聚类,最终完成对整个数据集的聚类。实验结果表明,基于Spark的并行密度峰值聚类算法相对于基于正序迭代选择策略的密度峰值聚类算法,在减少计算量以及时间上有更好的效果,大大提高了聚类的计算效率。(3)为了检验算法的有效性和实用性,本文针对外卖数据进行了试验,将基于Spark的并行密度峰值聚类算法应用其中。首先对各个外卖卖家的经纬度进行了聚类,然后对各个点餐时间进行了聚类。通过实验结果和分析,本文算法将对于商铺的经营策略和对于商铺管理提供有力的营销依据,也体现了本算法具有一定的实用价值。最后对全文进行了总结,并提出了下一阶段的研究方向。

其他文献

新型采煤机销联接花键轴结构设计及可行性分析

煤矿井下工作环境复杂,负载多变。采煤机在井下生产时,当受到过载冲击的时候,载荷瞬间过载,花键轴断开保护牵引传动系统。常用的花键轴是剪切槽式的,断裂后整个换掉,成本较高

期刊

花键轴力学SolidWorksCAE可行性

浅论有限合伙制度中的风险分配及其制度完善

2006年新修订的《合伙企业法》增加了有限合伙制度,为我国合伙企业的平稳有序发展带来了新契机。但是我们应该注意到在有限合伙制度中,有限合伙人和普通合伙人之间,特别是就

期刊

有限合伙有限责任风险分配债务承担

“3个坚持”助力安全文化建设

<正>安全文化建设是企业实现长治久安的有效途径,笔者根据所在单位中国石油集团渤海钻探工程有限公司第一固井分公司(简称第一固井分公司)实践经验,探讨如何通过坚持全体员工

期刊

安全文化建设因素识别

新生儿缺氧缺血性脑病合并心肌损伤的护理要点分析

目的探讨新生儿缺氧缺血性脑病合并心肌损伤的护理要点分析。方法抽取收治的100例新生儿缺氧缺血性脑病合并心律失常患儿进行分析,随机分组,对照组实施常规护理干预,观察组采

期刊

新生儿缺氧缺血性脑病围生期脑损伤并发症护理干预心肌损伤

展望1993年:大选后的美国经济

我们在这里尝试预测未来。我们会问:未来十二个月的经济会有何种具有合理解释的前景?在目前周期性不景气之后,经济将如何回升?最近的总统选举结果对上述前景将产生什么样的

期刊

国内生产总值克林顿委托管理年增长率美国经济银行业

日本电渗析技术研究与开发进展

日本电渗析技术研究与开发进展山内昭（日本九州大学理学部化学科，８１２福冈市东区箱崎６－１０－１）日本对离子交换膜的研究与开发从本世纪五十年代开始，这与Ｗ．Ｊｕｄａ等学者发表有关南子交换膜的合成报告几

期刊

离子交换膜复合膜电渗析技术非平衡热力学

浅谈大数据时代新闻摄影的创作理念和传播模式

大数据时代对新闻媒体产生了深远的影响,也让新闻摄影工作有了较大的变动。基于此,本文分析了大数据时代下新闻摄影的创作理念,着重阐述了互动交流的传播模式、多元化的传播

期刊

大数据时代新闻摄影传播模式

价值研究的哲学奠基——价值哲学的存在论思考

“价值”是以问题的形式表现出来的现代社会的核心课题。对价值现象的哲学研究,首先要进行存在论的思考,以澄清围绕价值问题的意见之争,明确价值现象的根据之所在。存在论的

期刊

价值意义存在现象学境域

卢梭平等思想探微——以卢梭《论人与人之间不平等的起因和基础》为解读文本

平等思想是卢梭学说的精华,其集中体现在《论人与人之间不平等的起因和基础》一书中。卢梭基于规范的伦理立场,破除社会和时代的局限性,将平等的内涵和标准植根于超越物质羁

期刊

卢梭平等自由社会契约

牛传染性胸膜肺炎的诊治

1发病情况2013年3月20日,法库县的永鑫牛场从山东、黑山等地购入肉牛800余头,当天卸车的时候死了2头,以为是长途运输应急反应所致,没有重视。28日开始发现每栋牛舍都有一些牛

期刊

牛传染性胸膜肺炎剖检变化

基于快速搜索和发现的密度峰值聚类算法研究与应用

其他学术论文