K-means初始化算法研究

被引量 : 0次 | 上传用户:maxever888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,海量的数据出现在我们的生产生活中,一种用于发现数据中隐含知识的技术——数据挖掘技术,应运而生。本文首先介绍了数据挖掘的过程,功能和研究方向等。然后介绍了聚类分析的定义及相关知识,聚类分析技术常用数据结构,数据类型和聚类方法等。详细介绍了基于划分的方法中的K-means算法,分析了算法的优缺点。最后结合对聚类有效性及层次初始化的研究对K-means算法进行了改进,针对其初始化过程中存在的聚类中心与聚类数目需要事先已知的不足,设计了一种能够自动确定聚类中心与聚类数目的新算法——DHIKM算法。本文的主要工作包含以下几点:首先对聚类有效性评价指标进行研究,找出能够对聚类结果给出较合理评价的指标。在不同特征数据集的对比试验中发现常用的聚类有效性评价准则VIn与DBI指标在对K-means算法均匀效应的捕获能力,对聚类结果中数据成员变动的敏感性及发现数据集聚类个数的能力方面表现良好。接着研究了基于遗传算法的K-means方法,即采用遗传算法来确定初始聚类中心,给出了详细的算法流程和实验结果。然后对层次初始化方法进行研究,设计一种能够合理确定初始中心的方法:对数据层层抽样,对抽样结束层进行聚类,将聚类中心映射到下一层作为该层的初始聚类中心并聚类,依此类推直到原始数据层,得到原始数据层的初始聚类中心,这样就确定了原始数据集的初始聚类中心。实验结果显示层次初始化方法能够有效减少需要计算的数据量并准确的找出初始聚类中心从而减少算法迭代次数,提高收敛速度。最后将层次初始化方法与DBI指标结合,设计了一种基于DBI的层次初始化的K-means算法(DBI based Hierarchical Initialization K-means,简称DHIKM)。该方法首先将原始数据网格化并层层抽样,减小需要计算的数据量;然后在抽样结束层的聚类过程中利用DBI指标确定最佳聚类数目;最后自上而下将抽样结束层的聚类中心映射到下一层作为初始聚类中心并聚类得到该层的聚类中心后继续映射,依此类推直到原始数据层。经UCI数据集和仿真数据集试验证明,改进的DHIKM算法基本能够自动确定初始聚类中心和聚类数目,与自动确定聚类数目的ISODATA方法、基于遗传算法的GAKM方法比较,改进的DHIKM算法更容易使用并且能有效较少运行时间,提高聚类质量。
其他文献
<正> 微波武器主要分以下几种: 微波太空杀手在太空中部署微波武器,进行太空防御战和进攻战是美军的一个选择。其中,在太空进攻战中,微波武器可以用于攻击对手的军用卫星、飞
口服液辅料以最大限度保留有效成分和改善口感为目的,是产品质量监控的关键环节之一,及时准确了解口服液辅料应用进展,对监控口服液产品质量具有重要意义.本文通过文献检索,
电影是视听艺术。其中,视是指影像,听是指声音。也就是说影像和声音共同构成了电影的语言。我们这里仅仅讨论影像语言。语言是表达的媒介形式,形式传递的是内容,内容是形式的
安吉拉·卡特(1940-1992)是当代英国重要小说家,其作品象征主义色彩浓重,充溢着传统童话和民间神话元素,对令人不快和倍感陌生的社会现象有敏锐的把握和生动的展现。《马戏团
在当前和谐警民关系建设中,迫切需要公安机关从战略的高度、以辩证的方法重视公安执法工作。民法是市场经济的基本法,以民法理念审视当前的公安执法工作,有利于促进公安执法
<正> 半个多世纪以前,博福斯公司研制成功第一门40毫米高射炮。当时人们普遍认为该武器系统是一项巨大的技术成就。该炮在二次世界大战中发挥了很大作用,其显著特点是可靠性
互联网技术作为21世纪发展最快的技术之一,已经广泛应用于我们的生活当中,对社会的进步、经济的发展做出了巨大的贡献。然而,网络在为人们的工作和生活提供巨大便利的同时,其
视觉测量是一门涉及计算机测量理论、数字信号处理、图像处理与模式识别、以及计算机技术等众多学科的技术。随着计算机在各个领域上的应用,视觉测量技术也在相关领域得到长
茉莉花茶是我国产量和销量最大的花茶,生产历史悠久,深受消费者喜爱。传统窨制工艺是茉莉花茶加工的主要方式,但其加工过程中存在工序繁琐、劳动强度大、耗能多、生产周期长
伴随着移动智能终端软硬件的不断发展,移动终端的性能不断提升,手机端也可以处理比较复杂的运算,同时移动互联网的兴起,以及3G,4G网络的不断普及,人们可以通过移动终端方便的