分布式数据流的聚类算法和模型的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:ruguofengdiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息爆炸时代,每天都会有海量的数据产生出来,许多组织(如超市、银行、电信公司)及一些数据采集系统每天都产生大量的数据,而且此类应用数据来自于多节点的分布式网络环境,所以,如何处理海量数据,如何处理分布式数据流近来受到了越来越多的关注。现如今,分布式数据流挖掘还处于研究探索阶段,如何开发出挖掘的算法和模型来提高数据挖掘的质量或者挖掘的效率是尤为重要的。  传统的数据挖掘技术的研究包括聚类、分类、关联规则等方面,针对分布式数据流的挖掘技术的研究也分布在这几个方面。其中,聚类分析作为数据挖掘的一项主要功能和任务,成为数据挖掘中的一个主要的研究领域。由于数据流本身的特性造成的诸多限制,传统的聚类算法不能直接运用到数据流上,目前在对单数据流的数据流挖掘聚类的研究上已经提出了很多模型和算法,可以在前人的研究基础上进行优化和改进,使之适用于分布式数据流挖掘环境。  针对分布式数据流聚类的问题,本文主要完成了如下的研究工作:  (1)本文给出了挖掘相关技术的介绍和挖掘方案的形式化描述,针对分布式数据流的自身特点,给出了相关的定义和描述。  (2)提出了一个核心代表点的生成算法(KPoints_Selected Algorithm,KPSA),并由此提出了一个核心代表点的挑选模型(KPoints_Selected Model,KPSM)。在局部站点的处理上,对数据流采用k-means(Local k-means algorithm,LKA)算法生成局部模式,对每一次产生的局部模式利用KPSA生成核心代表点集合,进而上传给中心站点生成全局模式。  (3)在中心节点,提出了一个全局聚类算法(Global KPoints BasedClustering,GKBC),通过对上传的核心代表点与中心节点自身生成的核心代表点的增量式聚类,进而产生全局模式及全局概要。  (4)提出了一个基于核心代表点的分布式全局聚类模型(DistributedGlobal KPoints Based Clustering Model,DGKCM)  (5)本文对GKBC所产生的全局模式与相关的分布式数据流聚类算法进行了对比实验。实验说明本文所提出的模型和算法有效地降低了通讯代价,保证了较高的精度,挖掘的精度与数据集成的挖掘精度具有一定程度的相似性,并且高于模式集成的精度。
其他文献
伴随产品制造业的不断发展,先进的产品制造技术日益涌现,同时也呈现出许多新的挑战,其中尤为突出的难题体现在以下几点:设计团队的扩充以致地域不断分散,设计过程愈发复杂(呈
NTRU公钥密码体制(NTRU PKCS)是一种典型的快速公钥系统,其解决了困扰PKCS的速度问题,更因其密钥体积小、生成方法简单等特点,可广泛应用于电子商务、嵌入式、通信等领域。  N
统一建模语言(Unifled Modeling Language,UML)是一种通用的可视化建模语言,已经成为面向对象建模领域公认事实上的工业标准。由于UML图从系统的需求、静态结构、动态行为以及
随着互联网的迅速普及和web2.0近年来深入人心,标签得到了大量的应用。标签所天然具有的极广泛用户参与度,使得非法信息在其中能够以极低成本爆发性的传播。图书馆对于非法信
公钥密码体制的安全性都是基于一些难解的数学问题,其中,许多密码体制的安全性基础是离散对数的计算困难性。离散对数问题最初作为一个数学问题,在数论中具有较长的历史;但是,随着
随着信息技术的迅猛发展,信息化程度的不断提高,全球数据量呈现出爆炸式增长。面对当前PB级的海量存储需求,传统的文件系统在容量和性能的扩展上存在瓶颈。云存储以其扩展性强、
云计算具有资源按需供给、支持应用弹性伸缩等优势,已逐渐成为广泛使用的计算泛型。当前,越来越多的应用系统已经或正在向云计算环境部署和迁移。但是,云应用的部署和配置费时费
文本推理的目标是识别文本对之间的蕴含关系和矛盾关系,这是一项语义层面的自然语言处理问题。文本推理可以应用于智能检索和问答系统等诸多领域。  本义的研究对象是简体
随着计算机技术的不断发展,信息安全问题日益显著。致力于解决终端安全问题的可信计算在这种背景下应运而生。可信计算的思想为从终端安全入手,在终端平台上植入安全芯片,从而从
互联网发展至今,已经覆盖了175个国家和地区的数亿台计算机,用户数量超过10亿。计算机已经深入到社会的各个领域,一个网络化的社会已经展现我们面前。然而光明和阴暗总是携手而