基于密度的增量数据谱聚类方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户：zhangwenda_gz

【摘要】

：

聚类分析是数据挖掘和机器学习研究领域的一个重要的分支,是人们探索事物内在规律的有效工具。谱聚类是聚类算法之一,它将数据集中的数据对象转化为图中的顶点。谱聚类算法以

【作者】

：

王若南

【出处】

：

哈尔滨工程大学

【发表日期】

：

2004年期

【关键词】

：

谱聚类密度增量数据相似度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类分析是数据挖掘和机器学习研究领域的一个重要的分支,是人们探索事物内在规律的有效工具。谱聚类是聚类算法之一,它将数据集中的数据对象转化为图中的顶点。谱聚类算法以谱图划分理论为基础,把对数据集的聚类问题转化为对图的最优划分问题,使子图内部相似度最大,而子图之间的相似度最小。与传统聚类算法相比,谱聚类算法不仅思想简单易懂,操作简单,同时还克服了传统算法容易陷入局部最优解的缺点,可以收敛到全局的最优解。传统谱聚类算法首先定义一个相似性度量,然后基于此度量构造出相似矩阵W,将相似矩阵W转化为合适的Laplacian矩阵L,由Laplacian矩阵的特征值和相应的特征向量,选择一个或者多个特征向量进行聚类。本文的具体研究内容如下:首先,本文在经典切割准则的基础上引入了平均密度,提出了基于平均密度的最小最大切割准则(MDcut),并从理论上证明了MDcut的相关性质。由于高斯核函数不能全面的描述数据之间的相似关系,因此本文通过构造一种新的相似性度量,提出了一种基于密度的谱聚类方法(DSC)。将该方法与三种常用的聚类方法在五个UCI数据集上进行对比实验。实验结果表明,该方法不仅能有效地描述数据之间的相似性,还大大提高了聚类效果。为了处理增量数据,本文定义了基于密度的增量数据谱聚类方法。对于静态数据集,不需要考虑新增加的数据对象对已有数据对象的密度的影响,但是对于动态数据集来说,当有新的数据对象进入数据集,可能会对数据集中一些数据对象的密度产生影响。因此本文在高斯核函数的基础上,构造了基于密度变化的相似性度量。在该度量的基础上,通过考虑新增的数据对象对原数据集的特征值以及相似度的影响,提出了一种基于特征值变化的谱聚类方法。将该方法与两种谱聚类方法进行对比实验,实验结果证明该方法不仅可以应用于增量数据,还可以对增量数据进行有效的聚类。

其他文献

新型农村合作医疗现状及优化对策

农村卫生工作是建设社会主义新农村的重要内容,建立和完善新型农村合作医疗是党和国家加快社会主义新农村建设,切实解决农民＂看病贵＂＂看病难＂问题的重要举措。本文就当前新型农村

期刊

新型农村合作医疗现状调研优化对策

复杂水域船舶避碰路径规划研究

针对目标船和碍航障碍区同时存在的复杂水域船舶避碰问题,在考虑《国际海上避碰规则》的前提下,结合避让目标船舶的预测危险区(PAD)理论、借鉴船舶领域相关成果进行的缓冲区

期刊

船舶工程避碰路径规划复杂水域切线图法Dijkstra算法2-turn平滑

降雨模式对树坪滑坡稳定性影响分析

降雨是诱发滑坡失稳的重要因素,依据饱和-非饱和及斜坡稳定性分析理论,基于等量的降雨量和降雨时间,按照实际库水位调度和降雨集中时间分为三种工况：工况一,稳定水位145 m;工

期刊

滑坡不同降雨模式饱和-非饱和理论数值模拟降雨入渗稳定性分析

浅谈完善改制中小企业法人治理结构及国有小股东权益保护问题

公司制是现代企业制度的一种有效组织形式。公司法人治理结构是公司制的核心。随着国有经济布局和结构的优化调整，越来越多的国有企业特别是中小国有企业将会逐步改制成为非国

期刊

小股东权益保护法人治理结构监事会中小企业

养猪场有害气体的危害及控制措施

养猪场的有害气体是危害猪场生存、猪健康生长的重要因素,而猪场作为养殖场的的主力军占据着养殖业的半壁江山。长期以来,臭、脏、乱成为了养猪场的代名词,困扰着养猪场的健

期刊

养猪场有害气体危害控制

沿空留巷底板变形力学分析及底臌防控

上覆岩层垮落产生的动载荷通过巷帮煤体、巷内支护体以及巷旁支护体传递给底板,造成工作面后方一段距离的沿空留巷底臌变形加剧。为了控制上覆岩层垮落引起的底臌变形,在分析

期刊

沿空留巷底板变形垮断极限层顶板载荷条带分割法底臌防控措施

西海岸经济新区产业结构类型及服务业发展现状分析

蓝色经济区建设上升为国家战略以来,对青岛市的经济发展和城乡建设带来了显著变化。西海岸经济新区是山东半岛蓝色经济区框架内容的一部分,西海岸经济新区建设,对于推动青岛

期刊

西海岸新区服务业

水泵的变频调速节能分析

本文介绍了变频器调速实现水泵电机节能的工作原理，以中型炉变频器对水泵电机调速的改造为实例，讲述了变频调速实现的节能效果。

期刊

变频器水泵调速节能

基于非相干积分的新型频域抗干扰系统设计

本文就GNSS系统中常见的窄带干扰带来的定位精度差、性能弱等缺点,介绍了传统的频域窄带干扰抑制算法的实现过程,并且针对其灵敏度低的缺点,提出了基于非相干积分的频域窄带

期刊

窄带干扰抑制非相干积分高灵敏度GNSS导航

连铸板坯角横裂缺陷的改善

角横裂缺陷发生在包晶碳钢的可能性大于其他含碳范围的钢。介绍了影响包晶碳钢角横裂的连铸工艺操作和设备。减少了作用在凝固坯壳上的机械应力，使得角横裂缺陷发生率明显减少

期刊

角横裂连铸结晶器

基于密度的增量数据谱聚类方法研究

其他学术论文