基于网格和密度的数据流聚类方法研究

来源 :大连理工大学 | 被引量 : 35次 | 上传用户：x345395603

【摘要】

：

随着硬件技术的不断发展，人们遇到了大量无法利用数据库进行存储的海量数据。这些数据数量非常巨大，并且产生速度很快。为了对这些数据进行有效处理，人们提出了数据流数据模型。

【作者】

：

单世民

【出处】

：

大连理工大学

【发表日期】

：

2006年01期

【关键词】

：

聚类分析数据流微粒群动态环境

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着硬件技术的不断发展，人们遇到了大量无法利用数据库进行存储的海量数据。这些数据数量非常巨大，并且产生速度很快。为了对这些数据进行有效处理，人们提出了数据流数据模型。作为数据挖掘在新环境的延伸，面向数据流的数据挖掘(简称数据流挖掘)问题已成为当前国内外研究的焦点，而数据流聚类方法则是数据流挖掘的一个重要研究方向。本文的研究目标是以研究传统聚类方法为基础，通过对传统方法的改进，实现对数据流的聚类处理。通过研究，发现基于网格和密度的聚类方法具有很多适用于处理数据流的特征，有利于实现对数据流的聚类处理。因此，本文在对基于网格和密度的传统聚类方法进行研究与改进的基础上，从聚类过程所处理数据集合的动态性角度出发，将基于网格和密度的数据流聚类方法分类为静态方法和动态方法，对其进行了一系列研究。围绕着数据流聚类问题，论文主要做了以下四方面的理论研究及应用工作： 1．对基于网格和密度的数据流静态聚类方法进行了讨论，通过对传统的基于网格和密度的聚类方法进行分析与改进，提出了一种新的网格单元密度计算方法。研究发现，已有方法基本使用数据点计数方式计算网格单元的密度。这种方法会造成数据点对其周围空间影响信息(influence)的部分丢失，容易导致同属一类的相邻数据点被分配到不同的数据类中。针对此问题，提出了“贡献度”概念。“贡献度”即是指在网格化的特征空间中，数据点对相邻网格单元(即数据点的周围空间)的影响程度。在此基础上，提出了一种新的网格单元密度计算方法。实验结果证明，与利用数据对象个数计算网格单元密度的方法相比，这种方法能够有效减少数据点对周围空间影响信息的丢失。 2．针对已有的基于网格和密度的聚类方法在稠密单元判定方式以及聚类生成过程方面的不足进行了改进，最终提出了一种新的基于网格和密度的微粒群混合聚类方法。现有方法基本使用单一阈值来判定稠密网格单元。这种方法限制了对聚类数据与噪音数据进行区分的能力。同时，已有方法都将首个遇到的稠密单元作为聚类生成过程的起始点。这种操作对生成的数据类缺乏选择性，使数据类的生成顺序具有不确定性，进而影响对结果的可控性。针对这些问题，使用了新的参数—“核心单元密度下限”。此参数限定了聚类中密度极大值的最小允许取值，对能够生成的聚类进行了限制，增强了区分聚类数据和噪音数据的能力。同时，通过将微粒群算法引入聚类过程，使得数据类能够根据本身的密度极大值有序生成，解决了聚类生成顺序的不确定性问题。最终，提出了基于网格和密度的微粒群混合聚类方法(CGDP)。 3．讨论了动态的网格空间环境下对聚类进行追踪的方法，提出了动态环境下改进的自适应微粒群算法。通过将网格单元密度转化评估函数取值的方式，把对聚类密度极

其他文献

尿素和甲醛合成脲醛树脂粘合剂的动力学研究

本文讨论了尿素和甲醛反应生成际醛树脂粘合剂的反应机理及其可能的控制步聚，提出了反应速度方程模型。通过实验测定了在不同的温度、反应物料初始条件下的甲醛反应速率，得到了

期刊

动力学粘合剂脲醛树脂合成

老年骨折患者围手术期肺部康复综合治疗的研究

目的：探讨围手术期肺部康复综合治疗预防肺部感染的效果。方法：对手术治疗的122例老年（≥60岁）骨折患者,随机分成康复治疗组和对照组,观察围手术期肺部感染的发生率。结果：非康复

期刊

围手术期肺部感染康复治疗Perioperative Lung infection Rehabilitation

沸腾氯化法制备氧氯化锆工艺

氧氯化锆制备工艺主要有两酸两碱法、一酸一碱法、石灰法、氯化法等,本文介绍了沸腾氯化工艺与其他工艺相比具有的连续、稳定、节能及环保等优势。

期刊

氧氯化锆制备工艺先进性

大数据技术在现代审计中的应用探究

随着时代的进步,科学技术发展速度加快,而大数据技术的迅速发展对现代审计产生了极大影响,并且对未来的审计信息化的进程也将产生巨大促进作用。大数据技术对审计目标、内容

期刊

大数据技术现代审计数据分析

单层柱面网壳结构雪荷载分布位置敏感性分析

大跨单层网壳结构为荷载分布位置敏感性结构,雪荷载不同的分布位置对网壳结构的稳定承载力产生影响,不利的雪荷载分布可能造成网壳结构稳定承载力的大幅度降低。以单斜杆型网

期刊

柱面网壳雪荷载稳定承载力分区组合敏感性

国际收支的汇率调节理论及其现实意义分析

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

国际收支汇率调节

我国生态纺织品标准与欧盟纺织品生态标签的比较

通过对我国现行的生态纺织品标准体系与欧盟最新的纺织品生态标签《Oeko-Tex Standard 100》比较发现:我国已经初步建立了生态纺织品的标准体系,其中GB/T 18885—2009《生态

期刊

生态纺织品标准欧盟

基于模式识别的入侵检测关键技术研究

随着网络技术的飞速发展以及广泛应用，网络安全成了越来越重要的问题。如何能快速、准确、有效地识别已有的攻击和日益增多的新的攻击就是入侵检测系统所面临的迫切问题。自从

学位

入侵检测系统模式识别神经网络主成分分析(PCA)变量相似性混合稳态遗传算法免疫克隆特征提取特征选择实例选择

计算机技术在固定资产管理中的具体应用研究

固定资产管理是企业财务管理工作中的核心内容,也是影响企业顺利开展工作的重要环节。基于计算机技术对于资产管理的重要意义,论文重点围绕计算机引入固定资产管理工作后,对

期刊

计算机技术固定资产管理实际应用computer technologyfixed assets managementpractical applicatio

微创技术治疗椎间孔型腰间盘突出的护理措施分析

目的分析微创技术治疗椎间孔型腰间盘突出的护理措施。方法将我院骨一科于2018年9月至2019年8月收治的54例椎间孔型腰间盘突出患者作为研究对象,所有患者均行微创技术治疗,均

期刊

护理措施微创技术椎间孔型腰间盘突出

基于网格和密度的数据流聚类方法研究

其他学术论文