基于云计算平台的聚类算法的研究

来源 :武汉理工大学 | 被引量 : 4次 | 上传用户:czq8068
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法一直是数据挖掘算法中比较重要的一个分支,在无需先验知识的前提下,聚类算法可以帮助研究人员从数据集合中获取数据特有的规律和组织结构。伴随着科技的发展,数据集中包含的数据量呈指数级增长,传统模式的聚类分析算法已经不足以应付当前的数据规模,Hadoop、Spark等分布式平台的出现为聚类分析的发展和研究提供了一个新的方向,同时,聚类算法也成了研究的重中之重。本文针对传统聚类算法难以有效解决大数据聚类处理的问题,通过对聚类算法的研究和优化,并结合当前云计算模式的发展主要做了如下工作:(1)首先对基于划分的最典型的K-means算法做了深入的分析,主要介绍了该算法的特点和执行过程。然后结合其自身特点,详细的阐述了K-means算法存在的几个缺点,并针对这些缺点,提出了通过对数据集进行预处理以得出K-means算法初始条件的k值、初始聚类中心的方案。从优化算法初始值的角度对算法进行了一定程度的改进。由于基于划分的聚类算法对数据集形状比较敏感,而基于密度的聚类算法却能够很好的解决此类问题。因此,本文接着对基于密度的DBSCAN算法进行了分析和改进,改进的算法从一定程度上降低了算法执行的时间消耗。(2)为了解决传统模式的聚类算法难以处理大数据集的问题,文中探讨了MapReduce编程模型,并基于此基础,把改进后的算法在Hadoop的MapReduce框架下做了并行化的设计。(3)通过对比实验比较了两种算法在处理任意形状数据集时的特点;论证了优化初始值后的K-means算法在聚类效果、算法复杂度上要优于原始算法,改进的DBSCAN算法降低了时间消耗。同时论证了两种并行化的算法能够充分体现出分布式计算的优点,大大的减少了运算的时间,使得数据处理效率有了很大的提高。
其他文献
备件管理是企业管理的重要方面,提高备件管理水平是提高企业竞争力的有效途径。本文研究了邯钢备件管理信息系统的设计和实现。系统采用浏览器/服务器模式,采用了Java和JSP编
粗糙集理论是八十年代初由波兰学者Z.Pawlak提出的一个数据分析的有力工具,近年来日益受到各领域的广泛关注,并已在机器学习、模式识别、决策分析、过程控制、数据库知识发现、
为了更好地理解和控制软件开发过程,提高软件质量,人们对于度量的需求越来越迫切;与此同时,由于面向对象软件自身独特的特征,一些传统的度量方法在面向对象领域就显得有些力
天然生长的木材即使同一树种,也可能因生长条件的变化而影响其结构上量的变化,这样就使得各株甚至于同株内的不周位置材性的变化可能很大。这些因素都给木材选材工作带来了一
典型相关分析是多元统计分析的一个重要研究课题。它借助主成分的思想,用少数几对综合变量来反映两组变量间的线性相关性质。目前它已经在众多领域的相关分析和预测分析中得到
XML正逐渐成为Internet上数据表示和数据交换的新标准,网络上存在大量的XML格式的可操作数据和其他商业信息。鉴于这些商业信息的敏感特性,增加了保护XML文档的重要性,迫切需
在互联网飞速发展的背景下,数据库应用体现出了不同以往的新特点,新的需求应运而生。海量数据及数据孤岛的产生,严重阻碍了科学数据的有效共享。 本文从这一背景出发,在传
传感器网络是一种以采集数据,发送数据和通信为目的的新型网络。传感器节点一般在野外工作,由电池供电,因此如何尽可能的减少能量消耗,延长网络生存期是传感器网络的一个重要
可编程控制器技术是目前工业控制和遥感测控领域应用最为广泛的技术之一,许多公司和研究机构都在开发和研制着各种各样的可编程控制器产品,并为其产品开发了各自的应用软件平
学位