基于密度的增量数据谱聚类方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:zhangwenda_gz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘和机器学习研究领域的一个重要的分支,是人们探索事物内在规律的有效工具。谱聚类是聚类算法之一,它将数据集中的数据对象转化为图中的顶点。谱聚类算法以谱图划分理论为基础,把对数据集的聚类问题转化为对图的最优划分问题,使子图内部相似度最大,而子图之间的相似度最小。与传统聚类算法相比,谱聚类算法不仅思想简单易懂,操作简单,同时还克服了传统算法容易陷入局部最优解的缺点,可以收敛到全局的最优解。传统谱聚类算法首先定义一个相似性度量,然后基于此度量构造出相似矩阵W,将相似矩阵W转化为合适的Laplacian矩阵L,由Laplacian矩阵的特征值和相应的特征向量,选择一个或者多个特征向量进行聚类。本文的具体研究内容如下:首先,本文在经典切割准则的基础上引入了平均密度,提出了基于平均密度的最小最大切割准则(MDcut),并从理论上证明了MDcut的相关性质。由于高斯核函数不能全面的描述数据之间的相似关系,因此本文通过构造一种新的相似性度量,提出了一种基于密度的谱聚类方法(DSC)。将该方法与三种常用的聚类方法在五个UCI数据集上进行对比实验。实验结果表明,该方法不仅能有效地描述数据之间的相似性,还大大提高了聚类效果。为了处理增量数据,本文定义了基于密度的增量数据谱聚类方法。对于静态数据集,不需要考虑新增加的数据对象对已有数据对象的密度的影响,但是对于动态数据集来说,当有新的数据对象进入数据集,可能会对数据集中一些数据对象的密度产生影响。因此本文在高斯核函数的基础上,构造了基于密度变化的相似性度量。在该度量的基础上,通过考虑新增的数据对象对原数据集的特征值以及相似度的影响,提出了一种基于特征值变化的谱聚类方法。将该方法与两种谱聚类方法进行对比实验,实验结果证明该方法不仅可以应用于增量数据,还可以对增量数据进行有效的聚类。
其他文献
农村卫生工作是建设社会主义新农村的重要内容,建立和完善新型农村合作医疗是党和国家加快社会主义新农村建设,切实解决农民"看病贵""看病难"问题的重要举措。本文就当前新型农村
针对目标船和碍航障碍区同时存在的复杂水域船舶避碰问题,在考虑《国际海上避碰规则》的前提下,结合避让目标船舶的预测危险区(PAD)理论、借鉴船舶领域相关成果进行的缓冲区
降雨是诱发滑坡失稳的重要因素,依据饱和-非饱和及斜坡稳定性分析理论,基于等量的降雨量和降雨时间,按照实际库水位调度和降雨集中时间分为三种工况:工况一,稳定水位145 m;工
公司制是现代企业制度的一种有效组织形式。公司法人治理结构是公司制的核心。随着国有经济布局和结构的优化调整,越来越多的国有企业特别是中小国有企业将会逐步改制成为非国
养猪场的有害气体是危害猪场生存、猪健康生长的重要因素,而猪场作为养殖场的的主力军占据着养殖业的半壁江山。长期以来,臭、脏、乱成为了养猪场的代名词,困扰着养猪场的健
上覆岩层垮落产生的动载荷通过巷帮煤体、巷内支护体以及巷旁支护体传递给底板,造成工作面后方一段距离的沿空留巷底臌变形加剧。为了控制上覆岩层垮落引起的底臌变形,在分析
蓝色经济区建设上升为国家战略以来,对青岛市的经济发展和城乡建设带来了显著变化。西海岸经济新区是山东半岛蓝色经济区框架内容的一部分,西海岸经济新区建设,对于推动青岛
本文介绍了变频器调速实现水泵电机节能的工作原理,以中型炉变频器对水泵电机调速的改造为实例,讲述了变频调速实现的节能效果。
本文就GNSS系统中常见的窄带干扰带来的定位精度差、性能弱等缺点,介绍了传统的频域窄带干扰抑制算法的实现过程,并且针对其灵敏度低的缺点,提出了基于非相干积分的频域窄带
角横裂缺陷发生在包晶碳钢的可能性大于其他含碳范围的钢。介绍了影响包晶碳钢角横裂的连铸工艺操作和设备。减少了作用在凝固坯壳上的机械应力,使得角横裂缺陷发生率明显减少