基于综合度量的划分聚类研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:tianchaoguoshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的快速发展和中大型数据库系统的出现,海量的数据被收集、存放在这些数据储存库中。但是,人们仍然没有掌握强有力的工具去理解它们所带来的潜在知识,这就导致了数据丰富、信息贫乏现象的出现。为此,学者们提出了数据挖掘技术。在数据挖掘领域,聚类分析作为统计学的一个分支,已经被广泛研究了许多年,研究内容主要集中在基于距离的聚类分析上,目前,其研究工作已经集中在为大型数据库的有效聚类分析寻找适当的方法。研究主题主要集中在聚类方法的可伸缩性、方法对具有复杂形状和类型的数据聚类的有效性、高维聚类技术、以及针对大型数据库中具有混合属性数据和分类属性数据的聚类方法。本文详细介绍了数据挖掘技术,内容包括数据挖掘技术基础知识、研究对象、和任务。并且在此基础上,对数据挖掘中的聚类分析作了详细的介绍,主要从聚类分析中的数据结构和数据类型、主要聚类算法的分类、和常用的基于划分的聚类算法。重点研究了分类属性数据的K-Modes和K-Prototypes两种聚类算法。针对K-Modes算法,主要讨论了K-Modes算法中关于两个对象之间基于距离的相异度度量公式,综合考虑数据对象之间的相异程度和相似程度,在基于划分的基础上,重新定义该相异度度量公式;针对K-Prototypes算法,主要论述了K-Prototypes算法中关于聚类初始值的选取问题,通过按频率分解的方法,和动态分组的方式,进而对原有算法进行改进。实验表明,改进后的算法较原算法,聚类质量有一定程度的提高。
其他文献
随着计算机硬件软件和互联网技术的飞速发展,网络上的各种信息急剧增长,已经成为人类有史以来信息资源数量最多、信息资源种类最全、信息资源规模最大的一个综合信息资源库。
网络服务质量(Quality of Service, QoS)属于一种网络安全机制,它具备疏通网络交通、保证网络传输效率、防止网络阻塞等优势。目前的网络技术,在提高网络传输速度、保证网络
在这个信息爆炸的的时代,以关系数据和XML形式存储、交换和发布的数字数据显著地增加,特别是在互联网上,这种呈指数的增长是前所未有的。当然,这两种形式的数据不仅可以让使用者
随着信息化时代的不断进步,人们越来越多的依赖网络,每天产生的电子信息数以万计,如何对这些信息进行有效的归类成了一大难题。数据挖掘技术的出现给人们指引了一条解决文本
时间序列预测一直是人们关注的热点问题,通过精确的预测结果,人们可以提前安排工作,预防不利情况发生,对于制定政策有着非常重要的意义。随着科学技术的不断进步,时间序列预测方法
虚拟植物是指以一定的植物形态结构模型和生理功能模型为基础,利用虚拟现实技术在计算机上重构植物的空间几何结构以及生长发育过程。虚拟植物研究具有很高的应用价值,不仅可
人类视觉系统之所以是目前世界上效果最好、精度最高、速度最快的图像处理系统,主要是由于人眼具有一系列特殊的视觉特性,其中与图像增强密切相关的特性包括色彩恒常性与亮度
TTCN-3是ETSI提出并维护的一种标准测试描述语言,利用它可以进行多种通讯领域上的各种系统测试。TTCN-3的应用已突破传统的网络协议测试领域,在一些大型的软件测试中得到了成
计算机技术的普及使得各行各业积累了大量的数据信息,人工处理这些大规模的数据已变得不现实。因此,数据挖掘技术应运而生了。在数据挖掘领域中聚类技术是其中的一个热点,聚
随着人类基因组计划的顺利完成和各种后基因组计划的开始实施,出现了海量的生物分子数据,这使得科学家们需要分析大量DNA数据。如何充分利用这些数据,进而揭示这些数据的内涵