基于层次和密度的任意形状聚类算法研究

来源 :河南理工大学 | 被引量 : 4次 | 上传用户:trjycp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类技术作为数据挖掘领域的一个重要研究方向,可以有效地帮助人们了解数据的分布和特征,以便作进一步研究分析。虽然已有的聚类算法很多,但聚类技术依然存在很多问题和挑战。结合层次聚类算法和密度聚类算法,本文提出一种新的任意形状聚类算法。该算法在层次聚类技术的框架下,使用基于密度聚类的思想来定义子簇和子簇合并方法,论文的主要工作如下:(1)针对目前层次聚类算法的计算时间复杂度较高,并且需要人为输入聚类个数或者阈值参数作为聚类终止条件的问题,本文提出了一种新颖的基于密度的子簇合并方法,将簇间边界区域密度大于等于其中任何一个簇平均密度的相邻子簇进行合并。该子簇合并准则使用动态模型的方法,能够自动适应被合并簇之间的内部特征属性,可自动确定聚类个数和聚类终止点,从而发现任意形状的聚类。(2)针对密度聚类算法容易忽略密度稀疏区域中的密度峰值点的问题,本文找出距离其他高密度点距离较远的点作为密度峰值点,放宽了对密度峰值点的选择范围。然后,根据这些密度峰值点将数据集切分为大量初始子簇,而且得到的子簇比较正确。(3)针对密度聚类方法使用全局统一的距离参数,不利于密度差异较大数据集的问题,本文通过将低密度数据集与高密度数据集分层,将低密度子簇筛选出来,设置合适的距离参数进行聚类来解决上述问题。在测试数据集以及真实数据集上的对比实验表明,本文算法具有能自动确定聚类个数,能够有效地发现任意形状、大小的聚类,对输入参数的选择具有鲁棒性,并且适用于密度分布不均匀的数据集等优点。
其他文献
无线传感器网络中节点的能量是有限的,任何路由协议,都必须要考虑到节点的能量消耗情况。一旦节点能量消耗完,那么节点就不能再继续收集和发送数据,从而影响整个网络的工作情
随着计算机技术的快速发展,汉字识别技术也逐渐成熟,被应用于许多领域,如信件的智能分拣、稿件校对、笔迹鉴定、文档图像处理等。而细化算法是汉字识别预处理中最重要的技术
网格技术是分布式网络技术的一个新发展,它将属于不同管理域的,异构资源灵活有效地组织起来,目的在于实现更高层次上的资源共享。即共享的资源不仅包含目前广泛使用的网页信
随着网络和通信技术的快速发展、信息资源的极大丰富,越来越多的数字图像通过网络广泛传播,极大地方便了人们的使用。然而,这种便捷也带来了许多信息安全问题,诸如数字图像内
序列密码是对称密码学的一个重要分支,被广泛应用在对安全性要求比较高的场合比如军事、通讯。与分组密码相比,序列密码具有硬件实现简单、加解密速度快以及错误传播少等优势
目标跟踪最初是为适应现代军事发展的需要而被提出的,经过众多国内外学者的研究,已经发展成为一个具有普遍实用性的领域。在空中侦察与预警、弹道导弹防御、战场监视等军事领
在各种多媒体服务和数字通信等应用领域,图像编码是至关重要的技术之一。上世纪90年代,分形图像编码作为一种全新压缩编码方法开始兴起,它的整体理论是建立在图像自相似基础
无线传感器网络(Wireless Sensor Networks,简称WSNs)是由分布在目标区域内大量传感器节点自组织形成的一类网络,广泛应用于各种特殊的监测任务。这些应用都是由传感器节点收
集群式供应链是一种新型的企业协作模式,通过企业服务间的动态匹配和组合来应对动态多变的市场需求,且不必因维持过高的产能而导致其自身的成本增加。然而,服务资源的非均等化现
远程教学是目前教学改革的重要内容,而虚拟实验室填补了远程教学中教学实践方面的空白,对提高远程教学的质量具有重要的意义。但是,当前的虚拟实验平台普遍不能支持异构资源