κ-means聚类算法的改进研究及其应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:nuclear01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是为使人们能够充分理解和应用隐藏在数据中的有效信息和知识而发展起来的一门新兴技术。聚类分析作为数据挖掘中的一种重要无监督模式,大致可分为以下几类方法:基于划分的聚类方法、基于层次的聚类方法、基于网格的聚类方法、基于密度的聚类方法等。k-means算法是一种基于划分的聚类算法,由于易行、高效等优点,在遥感领域得到广泛应用,但是随着遥感技术的发展,遥感图像中包含的数据量越来越大,并且k-means聚类算法易受初始中心点的制约。  本文在对k-means聚类算法分析的基础上,针对k-means聚类算法所存在的问题,对其进行了相应的改进,主要集中在以下两个方面:⑴针对k-means聚类算法在处理大规模数据时,会消耗较大的内存资源和计算成本,以至无法进行有效聚类的问题,提出一种采用MapReduce编程模型实现并行k-means聚类的方法。该方法首先将大规模数据分割成块,然后分配到集群中的各个子节点上,对样本数据进行聚类后,同步更新聚类中心再进行下一次聚类,直到聚类中心不再变化。通过UCI数据集中的4组数据仿真实验,验证并行k-means算法的有效性,并采用数据规模较大的遥感数据验证该方法对于遥感图像处理的有效性,同时测试并行集群的加速比和可扩展性。⑵针对k-means算法受初始聚类中心和异常数据的制约,易出现不稳定聚类结果的问题,提出一种基于差分进化的加权k-means算法。该算法首先基于差分进化算法,提出一种新的获得更好初始聚类中心的方法;然后根据样本对聚类分析影响的不同程度而引入权值,设计一种加权的欧氏距离,加大数据之间的区分程度,以减少异常数据等不确定因素带来的不良影响,并得到稳定的聚类结果,提高聚类精度。通过UCI数据集中的4组数据验证所提算法具有较稳定的聚类结果,同时将该方法应用到实际遥感图像上进行仿真实验,验证所提算法可较好地处理遥感图像数据,可将地物种类进行合理划分。
其他文献
随着经济的快速发展,互联网的普及,信息安全逐渐被人们所重视。人脸识别技术作为保护信息安全的重要手段之一,也逐渐被研究学者所重视。人脸识别作为计算机视觉技术和生物特征识
近年来,国内炼钢市场竞争日趋激烈,问题一方面来自于钢铁厂数量太多导致的产能过剩,另一方面来自于钢铁质量还有待加强,缺乏高端钢铁。所以提高产品质量和稳定性是解决产能过剩的
学位
由于工业生产的发展和节能的需求,作为一种高性能的交流传动控制技术,直接转矩控制(DTC)技术受到世界各国的高度重视。相比于矢量控制技术,直接转矩控制没有大量复杂的矢量变换,对转子参数的依赖程度很低。传统DTC策略虽然结构简单,动态响应迅速,但是由于采用纯积分器定子磁链观测器,不可避免的直流扰动会导致纯积分器误差积累,从而导致观测精度下降。为此,本文对DTC技术做了进一步研究与分析,其主要研究工作如
随着现代工业高速发展和重要装备安全监测与安全保障要求的不断提高,无损检测技术将面临更多的困难和挑战,有时单一的检测方式已无法满足实际的检测需求。有效结合不同检测方
随着当今社会的迅速发展,信息融合技术已经在许多领域得到了广泛应用。并且已经应用在移动机器人上,为机器人智能化水平的进一步提高提供了理论支撑。定位和避障是自动导引小车
汽车发动机在故障诊断时由于其复杂的结构和恶劣的工作环境,使得各传感器测量的数据具有不完备和不确定性,且测量数据中大多含有噪声,给故障诊断带来了很大困难。利用粗糙集
随着新技术、新工艺的不断出现和发展,直升机在军事和民用方面都有着极其广泛的应用,直升机的更新换代也越来越频繁,但是由于其具有非常复杂的动力学特性和多变的飞行姿态,通常很
近年来,随着经济社会的快速发展,城市化进程加速,城市交通也处于一个高速发展的时期。城市轨道交通逐渐成为了城市交通领域的一个重要组成部分,尤其是在北京上海等这样的大城市中
能源是人类社会发展的物质基础和动力来源。一方面世界经济的高速发展以及世界人口的持续增长,使得能源的总需求量正以惊人的速度增长;另一方面全球的化石燃料储量日益减少,并存在枯竭的危机。此外,化石燃料的大量使用造成了严重的环境问题。所以开发利用绿色可再生能源迫在眉睫。光伏发电是新兴的可再生能源技术,以其自身特点得到了人们的关注。本文以光伏发电系统作为研究对象,以获得遮阴下的光伏阵列的最大输出功率为研究目