基于网格和密度的流式数据聚类方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:shylake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流式数据聚类分析可以在海量数据中实时地挖掘出有效信息,在商业决策、物联网、金融证券数据分析等领域得到了广泛应用。与静态数据不同,流式数据具有实时性、突发性、易失性、无序性和无限性等特点,且无法将全部数据在内存中存储起来进行数据分析。因此,无限流式数据在有限内存空间里的聚类分析存在局限性,同时随着流式数据维度越来越高也给流式数据聚类带来了极大困难。鉴于上述情况,对流式数据聚类方法研究具有重要意义。论文以流式数据为研究对象,重点针对基于网格和密度的流式数据算法以及基于高维流式数据聚类算法进行了研究,具体而言,主要完成了如下工作:1.针对现有基于网格和密度的流式数据聚类算法存在边界点处理粗糙的问题,提出一种基于网格与密度的改进流式数据聚类算法。通过引入影响系数来表达数据点对邻接网格单元产生的影响,从而计算网格密度、提升算法的运行效率和准确性。实验证明,该算法能够更为准确快速地识别出聚类,具有可行性。2.针对高维流式数据聚类计算量巨大的问题,提出了一种高维流式数据聚类算法。算法充分考虑流式数据维度本身,并依据数据点在每个维度的分布特性,进行属性约简和网格划分,再根据不同维度的区域重叠产生聚类子空间。实验结果表明,算法不仅能够有效保证聚类质量,还具有较好的处理效率。综上所述,针对流式数据聚类算法的挖掘效率及挖掘准确度现状进行分析研究,提出改进的流式数据挖掘算法,并通过实验对算法的可行性及有效性进行验证,具有较好的理论及实践意义。
其他文献
本文归纳和总结了国内外对技校学生考试作弊的研究成果,对考试作弊的动因、方法和对策进行了系统的归纳。在总结前人研究经验、访谈多位学校管理者、学生和老师的基础上,向50
随着移动设备的繁荣,位置服务(LBS)在各领域都得到广泛流行。用户在享受LBS服务的同时需要向不可信的LBS服务提供商泄露查询属性(如个人位置,运动轨迹等)。通过对这些查询的
以纳米岛为代表的低维半导体材料由于其独特的性能而受到国内外学者的广泛关注,并在纳米岛发光二极管、纳米岛激光器、纳米岛红外探测器以及纳米岛半导体光放大器等领域取得
在最近几年里云计算技术作为一种新型的互联网技术,其发展迅速,技术手段日益成熟,而高可用的云计算网络离不开其资源的合理管理。云计算环境下资源管理是根据用户需要将资源
微波光子学将强大的光子技术融入微波系统中,利用光纤传输低损耗、重量轻、高带宽、抗电磁干扰等诸多优点,能够实现电域内难以甚至是无法完成的任务。微波光子链路在信号处理
噪声在日常生产生活中作为一个负面因素无时无刻不在困扰着人们。世界卫生组织的一份调查报告表明噪声污染危害程度仅次于空气污染。目前,在传统自适应滤波算法的研究工作中,
随着Internet业务的爆炸式发展,IP数据流量迅速增长,人们对信息业务的需求不断提高,“最后一公里”解决方案成为大家日益关心的焦点,以无源光网络为主的光接入网成为网络应用
随着信息技术的发展,互联网上的图像数据迅速增长。如何从海量的图像数据中快速准确地检索出人们感兴趣的图像已成为一个亟待解决的问题。图像检索技术应运而生,并成为了计算
社区问答服务能够为用户提出的自然语言问题提供一个简明、准确的答案。随着网络中用户交互信息的迅猛发展,问答社区越来越受到人们的关注。问题分类是社区问答中的一个基本
随着Android系统在移动智能平台上的广泛应用,其安全问题也不断增加,其中应用程序造成的隐私泄露、内核攻击等问题较为突出,Android系统的安全成为目前重要的研究课题。Andro