基于云计算的分布式聚类算法研究

来源 :沈阳工业大学 | 被引量 : 0次 | 上传用户:yangjianguo20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人们生产和生活中会产生各种各样的数据,这些数据中往往蕴藏着丰富的信息。如果能将这些蕴藏的信息挖掘出来,可能为人类的生活和工作带来巨大的改善,这种需求导致了数据挖掘的诞生。聚类分析是数据挖掘领域中一种非常重要的数据分析方法,它将数据库中的数据分割成不同的簇(类),并使簇内数据之间的相似性比簇间数据之间的相似性大。目前,聚类分析已在社会网络分析、统计数据分析、智能商务等领域得到广泛应用。随着互联网和数据库技术以及硬件存储技术的提升,导致人们获取和保存海量数据成为可能。如何能够使用数据挖掘方法快速对高维大规模数据进行分析和信息提取成为现今一个热门课题。基于此,本文针对当前密度峰值聚类算法的高复杂度和高计算量等问题,使用云计算框架MapReduce,研究了一种基于z值的分布式密度峰值聚类算法(DP-z)。该算法利用空间z填充曲线将高维数据集映射到一维空间上,根据数据点的z值信息对数据集进行分组。为了能够得到正确的聚类结果,再对分组间数据进行交互,然后进行并行计算。DP-z算法在分组间数据交互时采用过滤策略,减少大量无效距离计算和数据传输开销,有效提高算法的执行效率。本文通过理论分析可知,DP-z算法与原始密度峰值聚类算法相比,在得到聚类结果相同的情况下能够有效的提高算法执行效率。本文在Hadoop开源云计算平台上,设计并实现了DP-z算法,并通过对比实验,验证了本文研究方法的有效性。此外,针对基本的密度峰值聚类算法在进行密度计算时所存在的距离不敏感而导致密度计算时可能会产生误差的问题,本文研究了一种改进的密度峰值聚类算法,改进的密度峰值聚类算法在原始密度峰值聚类算法的密度衡量方法的基础上,对密度测量方法进行了改进。本文以数据点的一定范围内数据点的个数为基数,以在该范围内数据点的分布情况为附加信息,从而更加精确地测量出每个数据点的密度,提高聚类算法精确性。本文通过实验验证改进的密度峰值聚类算法比原始聚类算法具有更好的聚类效果。
其他文献
钢刃角超前支护是一种新型既有线防护体系,基本原理是顶进断面实施网格化,化整为零,从而达到既便于施工,又有利于行车安全的目的。结合乌准线乌北至小黄山段平交道口改立交工
【摘 要】 从上个世纪后期发展至今,计算机技术、网络技术促进着信息化时代的到来,信息化应用到社会各个领域,想社会提供人才输送的教育也应当在教学中强调信息化。在信息化背景下,会计教学要进行改革,由传统电算化会计教学向现代信息化会计教学转变。对此笔者在本文中结合信息化发展背景,对会计教学的改革提出了几点构想,旨在通过本文的研究为会计教学改革提供思路,指明会计教学改革的发展方向。  【关键词】 信息化;
摘 要:20世纪80年代以来,针对应试教育“片面追求升学率的弊端提出了素质教育改革。本文浅谈了高校体育教育专业的术科教学现状,提出了高校体育教育术科教学与素质教育建设的各个方面,为我国高校体育教育改革提供参考。  关键词:高校;体育教育;素质教育;  【分类号】G807.0  高校体育教育是学校教育的重要组成部分,是培养体育教师的摇篮,术科教学是实施素质教育的主阵地,素质教育实施的优劣直接影响基础
【摘 要】培养创新人才是我国21世纪教育的主要目标,也是当前全面推进素质教育的重点。作为基础学科的语文承载着时代赋予的历史使命。  【关键词】小学语文教学 学生创新能力 学生思维  【中图分类号】G623.2 【文献标识码】A【文章编号】2095-3089(2015)17-0011-01     “创新是一个民族进步的灵魂,是一个国家兴旺发达的不竭动力。”创新是素质教育的灵魂,培养学生的创新能
摘要:有位语言家说过:“生活有多广阔,语文就有多广阔。不仅要在课堂上学语文,还要在生活中学语文。”新课程强调了学习语文要紧密联系生活,要将小语文课堂与大社会天地相接壤,使语文教学突破“书本世界”的束缚而成为“生活语文”。  关键词:初中语文 生活 教育  【中图分类号】G633.3  陶行知指出:“生活教育是生活所原有,生活所自营,生活所必需的教育。教育的根本意义是生活之变化。生活无时不变,即生活
本文研究主要对象是女性油画家的独特表现性,关于女性艺术范畴这个主题前人有做过一些研究,但大部分是就女性艺术整体或单独几个女性油画家为研究对象。笔者没有选择过于宏大