基于属性相关度的子空间聚类算法

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:pausecn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析作为数据挖掘的十大难题之一,是数据挖掘范畴的重点研究内容。其中,对高维数据的聚类更是研究者们探索的热点问题。最近的研究显示出传统的聚类算法可能因为高维数据的维度灾难现象而不能发现有意义的簇。维度灾难指的是随着维度基数的增长,指定的点到离它最近的点的距离和距他最远的点距离识别率降低,发现有意义的、可分离的簇是非常有挑战性的。利用子空间聚类技术可以将这些高维数据中的信息转换成有价值的知识,解决维度灾难的问题。与在所有特征空间寻找聚类不同,子空间聚类的方向是找到嵌在不同子空间的簇,是达成高维数据聚类的有效方法。经过探索常用的一些子空间聚类算法,发现簇的子空间确定的过程大都要求对数据库进行多次扫描,并且需求用户来提供算法所使用的参数,致使算法的效率和准确性受到限制。基于频繁模式的数据挖掘技术发现和设置方法,子空间的确定可以通过两次扫描数据库,转化为频繁模式挖掘问题,所有的信息都存储在频繁模式树中,进而可以找到频繁模式。本文提出了一种可以解决高维数值类型数据包括布尔类型数据的子空间聚类算法(Attribute relevancy-based subspace clustering algorithm, ARSUB)。算法采用网格聚类的思想,将属性转化为频繁模式中的项集,将聚类问题转化为频繁模式挖掘问题,然后基于项目对间强关联的关系建立关系矩阵,以衡量任意两个项集之间的相关度,进而得到强相关的候选子空间。最后对候选子空间进行聚类得到存在于不同子空间中的簇。本算法利用频繁模式树的结构存储了整个数据集的信息,能够高效的对子空间进行挖掘。本文将ARSUB算法分别在人工合成数据集与真实数据集上进行了试验,结果表明,ARSUB算法相对其他子空间聚类算法来说拥有较高的准确性,可以对高维数据进行较好的聚类,实验结果阐明了ARSUB算法对高维数据进行聚类有较好的准确性与可行性。同时,对算法的时间开销进行比较,说明了ARSUB算法的高效性。
其他文献
基于内容的图像检索是根据图像的内容,对图像内容进行分析和量化并提取图像特征,并且使用图像的特征进行图像检索的技术。目前基于内容的图像检索技术已经在图像搜索引擎、医
单体型序列是生物遗传分析中的一类重要信息。由于实验方法获取单体型序列具有价格过高、速度慢等缺点,使用计算手段从易于获取的基因型序列得到单体型序列成为人们的首选,并
随着通信业的快速发展,3G技术给人们带来了前所未有的高速通信体验,WCDMA是最为成熟的移动通信3G标准。在我国,随着WCDMA标准的演进和产业化的发展,其协议特性越来越丰富,协议规模
植物在生长过程中,常常遭受到各类逆境和病虫害等胁迫的影响,寻找与胁迫响应相关的关键基因,研究植物对胁迫响应的机制,对农业、林业、环保等多方面都具有重要意义。获取基因
合成生物学飞速发展,工程领域对设计外源基因引入载体细胞引导路径合成从而获得目标产物的需求大大增加,这已经是工业化生产中获得自然界中产量少的化合物的一个重要方法。人
计算机网络和无线通信技术的发展,推动了森林环境监测、医疗卫生和军事监控等无线传感网络应用的发展和普及。多数应用都对数据传输的延迟时间,即数据从源节点发出到被根节点
汽车尾气的排放是造成目前日益严重大气污染问题以及能源危机的一个重要原因,为此,大力发展电动车行业是如今的一个主要方向。随着这些电动车用户量的增加,有的地方已经开始
近年来随着嵌入式设备的日益普及,嵌入式软件的安全性越发显得重要。在一些关键领域,如航天、医疗、军事、核能等,如果嵌入式软件存在程序漏洞,有可能导致程序在非正常状态运
视频关键帧提取及其可视化展示有利于视频内容信息的快速查阅和筛选,本文提出了两种关键帧提取算法以及一种螺旋圈结构的视频内容可视化方法,设计开发了三个应用系统。  关键
随着多媒体信息技术的飞速发展,图像资源越来越多地出现在人们的工作和生活当中,如何能够快速确地在庞大的图像资源库中查询到所需信息已经成为计算机视觉领域的一个重大挑战