数据流中基于区间划分的高维聚类算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:wangsong1008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据规模的不断增大以及数据维数的不断增长,传统的聚类算法已经无法获得有意义的聚类结果。针对高维数据流的聚类问题,本文将重点放在聚类过程中存储空间的有效利用、聚类结果的更新以及聚类算法对数据的适用性上,并提出两种聚类算法:基于最优区间划分的动态聚类算法和基于空间划分的信息熵聚类算法。本文首先定义了基于内存的数据集划分方法,这种区间划分方法使得划分后的区间大小与存储单元大小匹配,避免了存储单元内部闲置带来的资源浪费问题。在此基础之上,提出两种区间划分方式:将最优区间划分为高密网格和将数据空间划分为单位空间。其次,设计了一种基于最优区间划分的动态聚类算法DOIC。该算法通过基于内存的数据集划分和最优区间划分得到高密网格,使数据集的划分更贴近数据的实际分布特征;通过HDU树的创建和合并,以解决数据的聚类及更新问题;同时,为了消除历史数据对聚类结果的影响,利用权值以实现在聚类过程中对历史数据的逐步废弃。该算法的数据空间伸缩性和聚类效果较以往算法都有所提高。最后,提出了一种数据流中基于空间划分的信息熵聚类算法IEC。IEC算法利用信息熵指导聚类过程,为了减少聚类过程中的计算量,将数据集划分为单位空间,然后通过单位空间的信息熵及各单位空间之间的信息熵指导完成聚类过程。
其他文献
服装纸样设计是服装工业生产中的重要技术准备环节,是服装造型与结构的主要依据;并且随着服装工业现代化的高速发展,服装产品的功能、结构日趋复杂,新产品的更新换代周期不断缩短
学位
三维GIS技术是目前GIS科学发展的主流趋势之一。与传统的二维GIS相比,三维GIS将地理空间现象以立体造型展现给用户,表达了对象的空间位置关系,并能够进行三维空间分析和操作,
近几年,随着电子商务等需要的剧增,人脸自动识别已经成为了最具潜力的身份认证方式。人脸自动识别具有非侵犯性、直接性和友好性,更加符合人们的视觉习惯,是人们最容易接受的
图像分割是从图像处理到图像分析的关键技术,是图像理解的基础,也是计算机视觉领域中的最基本和最关键问题之一。所谓图像分割是指把图像分成各具特性的区域并提取出感兴趣目标
Internet技术的广泛应用和移动计算、网格计算以及普适计算平台的快速发展,要求分布式系统能够满足大规模、分散控制和动态改变的要求。这就要求系统的各参与者之间,采用一种具
排课问题又称为时间表问题(Timetable Problems; TTP),它涉及到班级、课程、教师、教室、时间等众多因素,受到教室、时间、班级等多重约束,是一个组合优化问题。随着办公自动化
学位
图像/视频编码可有效减少数传带宽和存储空间,广泛应用于传输、存储和检索等系统中。研究图像/视频编码中的关键技术,获得质量和码率的平衡,具有重要的理论与现实意义。本文结合
图像作为一种媒介具有文字所无法比拟的丰富表现力,成为我们这个社会一种非常重要的存储和表现信息的载体。但是由于各种原因引起了图像信息的损坏,对这些损坏的信息进行恢复就
表决系统在多版本软件容错系统中有重要的作用。多版本软件容错系统由几个实现同样功能的独立软件版本和表决系统构成。其中,表决系统的作用在于对几个软件版本的输出结果进行
样条是一类特别有效的逼近工具。多元样条在计算机辅助几何设计中有重要的应用。计算机辅助几何设计(ComputerAidedGeometrieDesign,英文缩写CAGD)的研究对象是几何造型,主要研