基于遗传算法的并行化K-means聚类算法研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:luo_yanjiang1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet、AI的快速发展,互联网中积累了海量的数据。这些数据蕴含巨大的商业价值,对于降低企业成本、提高企业收入具有重要作用,越来越受到企业的重视。但是,这些数据价值密度低、结构复杂,如何从这些海量数据中快速、准确地挖掘出这些有价值的信息是我们面临的难题。利用数据挖掘技术可以帮助我们从这些海量数据中挖掘出有用信息。但是,传统的数据挖掘技术在处理海量数据或者高维数据时存在准确率偏低、分析时间过长等问题。而且,数据挖掘算法传统运行模式大多在单机上执行,数据量更大时,运行时间会更长。目前,将传统数据挖掘算法进行改进,然后结合分布式计算平台Spark,将改进后的聚类算法并行化并部署到集群上是解决上述问题的一个可行方案。为此,本文进行了以下几个方面的研究:(1)研究了K-means算法,针对算法对初始聚类中心敏感、K值不确定、容易过早陷入局部最优解的缺陷,提出使用遗传算法(Genetic Algorithm,简称GA)对其进行改进。针对经典GA算法求解全局最优解易过早收敛的缺点,本文对经典GA算法进行了两方面的改进:一方面,对遗传算法的适应度函数进行了线性变换,使其随着环境的变化实时调整,设计了GA-K-means-L算法。另一方面,改进传统单一变异算子为并行选择变异算子,解决了易陷入局部最优解的缺陷,设计了GA-K-means-M算法。最后将这两种算法进行整合,设计了本文研究的GA-K-means算法。(2)针对GA-K-means算法在单机环境下处理海量数据时性能过低的问题,利用云计算平台Spark对GA-K-means算法进行并行化设计与实现。(3)搭建Spark+YARN集群,对上述改进进行验证。在单机环境下分别部署K-means算法、GA-K-means-L算法、GA-K-means-M算法以及GA-K-means算法。然后,对不同数据量、不同维度的数据集进行聚类分析,最后,统计分析各个算法的平均准确率、平均迭代次数以及平均耗时。在Spark+YARN集群环境下部署GA-K-means算法。然后,对不同数据量、不同维度的数据在不同数量的节点下聚类分析。最后,统计分析在Spark集群下的加速比和扩展性。研究表明基于改进遗传算法的混合K-means算法有效克服了K-means算法的缺陷,对GA-K-means算法在Spark+YARN集群环境下进行并行化可以高效处理数据量大,维度高的数据,具有重要的实际应用价值。
其他文献
立体几何的主要特点是借助于图形进行抽象思维,图形成了思维的主要载体.在平时教学中,自制一些简易的直观教具,可以培养学生的空间想象能力,提高作图能力.本文谈谈“异面直线
医疗行业是一个特殊的行业,我国的医疗行业一直以来是以政府主导的非营利型公立医院为主的行业。然而随着市场化进程的不断加速,医疗行业改革的不断推进,医院的运营环境也发
<正>为适应新军事变革需要,法军加速推进其现代化建设,2001年,法军宣布全面实现军队职业化。目前法国职业化军人约25万人,全体军人在不同时期都要接受不同类型的军事职业教育
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
随着计算机数值模拟技术的迅速发展,行人运动仿真技术开始成为人群疏散仿真、城市规划和计算机疏散软件开发方面的研究热点。介绍了对行人建模仿真的初步研究,重点介绍了基于
分析了几种常用的整周模糊度求解算法,在比较了各自优缺点的基础上,提出最小二乘法和LAMBDA法的优点综合于一体的算法具有较大的优势,能有效减少备选整周模糊度的组合数,并采
生产企业物流管理业务的剥离正被企业用作提高物流效率降低生产成本的重要手段,对这些问题的探讨就显得非常重要.本文对于国内外物流业发展现状进行了探讨,分析了我国物流业
太阳能热水系统以节能与环保的突出特点越来越受欢迎,本文结合工程实例.提出太阳能热水系统设计方案,并从经济效益角度阐述了太阳能带来的收益.
托妮&#183;莫里森是当代美国文学界最伟大的小说家之一,她的第五部作品《宠儿》以其独特的艺术创作特点和语言表达方式斩获1987年“美国普利策小说奖”,以《宠儿》为代表,更使其