分布式环境下聚类挖掘研究及其在机械产品聚类分析中的应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jessiexsu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网的空前繁荣和高速发展带来了“洪水”一般的海量信息。对这些海量分布的数据进行分布式聚类成为了一个十分必要的研究课题。由于Hadoop这样一个开源分布式计算平台的出现,使得传统数据挖掘过程能够应用在分布式环境下。分布式聚类时,为了降低通讯压力,一般会将局部聚类结果进行近似。因此,分布式聚类的精度一般低于传统聚类精度。  本文从分布式聚类中的精度问题入手,分析了精度的影响因素,指出精度问题的关键是找出全局聚类的信息下限。针对K-means这一传统聚类算法,提出了精度改善方案,并且结合Hadoop平台中的Map/Reduce编程模型进行了并行化改造。本文的主要工作包括如下:  第一,分析了聚类中的精度易受到孤立点、初始值等多方面因素影响。海量数据背景下,避免初始质心过于集中或者过于分散进而影响精度,设计了精度改善方法,方法中使用簇质心密度和簇间距离足够高的簇质心作为初始质心。  第二,为了减少数据处理量,基于Map/Reduce编程模型,设计了海量数据抽样方案;并对于质心选择方法中样本容量估计、簇密度计算等环节,设计了相应的并行化方案。  第三,针对K-means算法的并行化问题,在Map阶段进行局部划分,Reduce阶段进行全局质心计算。找出了全局计算簇质心时的信息下限,舍去局部划分结果中的具体数据对象,仅保留全局计算质心时必需的对象个数以及对象的和,保证了并行化后算法的精度。  第四,通过虚拟化技术搭建了Hadoop集群,在人工数据集上开展了实验,结果表明,在一定节点规模下,本方法在时间性能上具有一定适应能力。并且将其应用在机械产品振动数据聚类分析上,结果表明,相比于K-means算法,本文方法在精度和稳定性上的有所提高,能够准确地区分不同的振动情况。
其他文献
小型自治水下机器人(小型AUV),因为具有结构相对简单,造价低、航速快,机动灵活,隐蔽性好,可以快速完成布放等优点,逐渐引起了人们的重视,并开始应用于近海环境监测、水底地质勘探、水
作为服装领域的一个重要行业——皮革业的发展极为迅速。除皮装、鞋帽、箱包、家具外,更涉及交通车辆、豪华游轮等内饰装修。随着皮革制品在各个领域的广泛应用,对皮革加工业
本文研究了新型碱剂在活性染料轧染、浸染中的应用,通过对碱剂种类的筛选、各工艺条件对染色效果影响的探讨以及工艺条件优化,确定了优化工艺;并研究了染色性能。 工艺研究表
随着人们对工业产品复杂程度的要求越来越高,通过计算机辅助设计(Computer Aided Design,CAD)的产品经过制造加工成型后,其检测难度也越来越高。在众多检测方法中,工业CT(Computed Tomography)检测因其能够对工件内部结构和材料性质进行无损测试,而成为一种优秀的检测手段。对工件的检测中,关键的一步就是将CT切片重建模型与原始CAD模型进行配准比对,从而得到正确的检
带行星齿轮机构的ISG型重度混合动力汽车属于并联式混合动力结构,与普通的中度混合动力汽车相比,其电机功率所占总功率的比重增加,通过结合湿式多片离合器使电机单独驱动车辆,增
协同制造系统作为一个高效制造系统得到了快速的发展,特别是自动化运输系统AGV发挥了极其重要的作用,如何用遗传算法得到对整个协同制造系统加工过程的调度以及对AGV运动路径
汽车电子稳定性控制系统ESP是基于制动防抱死系统ABS和牵引力控制系统TCS发展起来的主动安全控制系统。ESP能在极限工况下实时调整车辆状态,改善汽车的操纵稳定性和行驶安全性
大批量定制生产(Mass Customization, MC)是企业通过大批量生产的高效率和低成本向客户提供定制产品的一种新的生产模式,是21世纪企业在竞争日益激烈的市场环境下站稳脚跟并谋求发展的新途径。随着客户需求的日趋丰富化、多样化和个性化,传统的大批量生产中以产品为中心的特点已成为阻碍其发展的缺点,以客户为中心的大批量定制生产模式正逐渐成为顺应潮流的生产模式。面向大批量定制的产品设计技术(D
随着科学技术和计算机技术的飞速发展,当今的工程机械产品正朝着模块化、系列化的方向迅猛发展。与此同时,信息化、电子化、智能化的水平也在不断提高,而且这几个方面已经高