基于MapReduce的并行采样K-Means算法的研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:davidcao2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
K-means算法因其简单、实用性被广泛的应用于商业、学术等领域。但该算法本身依赖于初值的选取,聚类精度差,且面对海量数据的处理容易出现存储问题。Hadoop的广泛应用,实现了K-means算法的并行化,以及在此基础上作出改进的Canopy-Kmeans算法,较好的解决了海量数据的存储和初值选取依赖问题,然而是对数据的全局处理,初值选取的代价较高。因此,针对上述问题,本文提出了一种基于MapReduce的并行采样K-means算法。利用K选择排序算法结合MapReduce编程模型进行并行采样,提高样本的采样效率,采用基于样本预处理策略的方式,来实现初值的快速获取。最后,利用权值替换方式来代替均值迭代,提高聚类精度。且通过集群优化,进一步提升算法的运行效率。实验表明:本文并行算法有较好的聚类结果以及加速比,在集群优化的对比实验中,算法的性能得到了进一步改善。
其他文献
在国际法的发展中,现代国际组织的相关法律问题是一个相对较新的领域,与之相关的国际组织的地位、特权和豁免问题也是新近发展来的。随着国际组织在国际生活中的重要性不断增
当今世界正经历着有史以来最为迅速的城市化进程,城市气候也因此受到了严重的负面影响。在城市中,街道面积占据着城市用地面积的三分之一,因此,城市街道绿化景观的优劣将直接影响城市的整体气候环境。生活性街道绿化作为人们日常生活所接触频率最高的城市绿地,对人们的生理舒适感受、心理需求的满足有着至关重要的作用。研究生活性街道绿化空间对街道微气候的影响对改善整个城市的微气候状况有着重大意义。通过文献研究发现,前
新闻推荐系统是推荐系统中的一个重要分支,目的是向用户以精准化、个性化的方式推荐新闻。目前的新闻推荐算法中,存在推荐条件单一、考虑的参考因素种类较少等缺点。本文通过
随着我国经济社会发展,行政执法如何同刑事司法有效对接成为困扰我国执法司法实践领域的一大难题。为此,国务院于2001年先后制定并发布了《关于整顿和规范市场经济秩序的决定
木瓜蛋白酶又称为木瓜酶,是番木瓜中含有巯基的一种特异性蛋白水解酶,被广泛应用于食品、医药等领域,但使用传统分离纯化木瓜蛋白酶的方法不能获得高活性、高纯度的木瓜蛋白酶,因此,对于获得高品质木瓜蛋白酶分离方法的研究具有非常重要的实际意义。双水相体系作为一种简单、高效的分离纯化技术被广泛应用于蛋白质或酶的分离纯化,但目前对双水相体系的研究大多集中在PEG/盐和离子液体/盐三元双水相体系,而对于四元双水相
随着学习型社区理念的普及,越来越多的人关注并参与到社区教育中。常州作为华东地区经济发达城市,社会劳动力流动量和频率较大,因此,对下岗人员和待业人员以及从业人员普遍进
雨生红球藻因主要脂肪酸组份为棕榈酸、油酸和亚油酸等中性脂肪,不饱和双键较少等原因,被认为是生物柴油的理想原料。然而,较高的生产成本限制其大规模工业化生产。本课题希望通过提高雨生红球藻生长速率和脂肪含量来分别提高单位面积产量和降低单位生物量的生产加工成本,从而提高该生产过程的经济性和可持续性。因此,本实验将雨生红球藻与淡紫拟青霉TD16(以下简称TD16)混合培养,以研究真菌对微藻生长和脂类合成的影
本研究以西杂公牛(西门塔尔牛与本地牛杂交的杂交公牛)为试验动物,通过尼龙袋法、高通量基因测序技术和饲养试验,研究不同比例的谷草和玉米秸秆对西杂牛营养物质降解率、瘤胃
针对自主研制主机采用ARM-FPGA结构的小型可编程逻辑控制器(PLC),该PLC由PLC主机、手持编程器、人机界面装置等模块组成,各模块通过CAN总线连接通信;本文对人机界面装置、CAN总线
随着互联网的普及,用户群体规模与日俱增,由此产生大量的数据,进入大数据时代。互联网领域产生的数据大都使用图来建模表示,由于图数据规模巨大,传统的集中式方法已不能在合理时间内完成数据处理,人们逐渐使用分布式计算平台来并行处理大图数据。计算机领域将关于图的处理称为图计算,图摘要作为图计算的一个重要方面,是大数据分析和处理的重要手段。图摘要是将大规模的图归纳为更加简洁的表示形式的技术,能够降低图的规模和