论文部分内容阅读
【摘 要】本文主要将云技术与流数据聚类算法进行了融合,探讨怎样可以进行流数据聚类效果的优化,并以此作为理论基础构建了新的流数据云计算挖掘模型。借助该模型能够提升处理数据的速度,增多处理数据的维度,进而提升在流数据处理过程中各单元的使用效率。此外,联系现在电子信息技术的发展现状对其应用范围进行了延伸。
【关键词】流数据 数据挖掘 云计算 设计
一、引言
流数据聚类是非常关键的数据挖掘技术,其已经被众多行业、众多领域的流数据挖掘广泛采用。本文以一直沿用的流式数据聚类模型为基础,把云计算与聚类过程进行有效融合,借助模型提供的算法,实现即时高效的分析流数据所进行聚类过程,进而减少进行巨大数量的流式数据处理时占用的内存量,这样不但增多了针对数据进行处理的维度,也提升了对于数据拆解与计算的迁移能力,将流数据聚类这项技术的实际应用范围拓展到更加广泛的领域。
二、云计算简述
云计算实际上集分布式数据处理、数据并行处理、多维度网格计算于一身,也可以说云计算将上述复杂的计算机运算处理變得易于操作。借助将计算分散于多部分布式计算机中,而并不是通常意义上的非本地或者远程计算机中,把大量由网络衔接在一起的计算设备进行统一的协调与分配,把数据中心所能提供的一切资源建成资源池向合资格的数据需求用户提供针对性的服务。
我们把在进行云计算的时候云计算中心可以提供的服务分成三个不同的层次。只要用户参与进了云计算,那么其不再需要任何形式的服务器、客户端等辅助设备或者软件,就能够在任意时间、任意地点、任意设备上经由浏览器进行数据的访问,这里云计算可以提供的服务分别为: 软件即服务(Soft-ware as a Service,SaaS),平台即服务(Platform as a Service,PaaS),基础设施即服务(Infrastructure as a Service,IaaS)。
由于云技术自身的优势,把它融合进流数据的挖掘模型里,不但能够借助资源的分享与虚拟利用降低内存的占用量,还能够借助其可以提供的服务提升流数据挖掘的即时处理能力以及速度。上述过程中,数据资源的调用以及计算对于数据挖掘负责人员是透明的,这样自然能够降低内存的使用量,提升数据挖掘的质量以及效率。
三、以云技术为基础的流数据挖掘构建
基于现在流数据聚类的不断进步,同时考虑到云技术的发展以及应用状态,本文借助在流数据处理模型里融合云计算以及操作平台,利用平台所能提供的各种服务,在浮动窗口方式下构建出以云技术为基础的流式数据聚类模型,具体设计如下图1所示。
此模型包括以下四部分:数据流预处理部分,流数据处理部分,云技术服务部分,数据查询部分。借助采用云技术能够把数据流中的数据模块进行精简,也就是把当中有些数据的调用与检验借助云计算部分进行分散,这样可以有效提升数据模块在进行大量数据处理时的效率,还能够降低数据流处理部分占用的内存比例。
(一)中间资源池模块。由于内存空间毕竟有限,一旦数据中心有大量数据经过浮动窗口同时需要预处理的时候,可以通过中间资源池把数据调用操作相对初级的计算划到中间资源池中,进而把数据预处理的整个过程分散进行。
(二)软件即服务模块。该模块借助互联网不定时的向数据挖掘负责人提供基本软件服务,L2是云端模式,能够提升运算速度与数据服务质量。在具体的应用中,用户可以按照自己的需要向云端进行注册申请,一旦申请成功就需要支付云计算中心相关的服务费用,然后享用所需的软件服务。
(三)平台即服务模块。该模块可以向用户提供多种具体的操作平台,用户借助上述平台可以调用所需的应用程序,同时使用相应的服务,这样的平台能够把模式化的操作过程在云端进行分散。
(四)基础设施即服务模块。这个模块可以把挖掘时必须用到的计算组件集中在一起,形成资源池,从而向用户提供科学高效的数据挖掘过程,这样也有效防止了由于内存限制而造成的数据处理效率低下现象。
四、结论
经过理论研究以及实践检验我们发现,把云计算融合进数据流的聚类算法中,可以实现对大量数据的即时处理,降低内存的占用比例,提升该算法的数据预处理能力、对海量数据的处理速度以及数据分析能力。
参考文献:
[1]王晓楠.云计算时代我国数字图书馆的发展[J].价值工程.2011(06)
[2]金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报.2004(08)
[3]王鄂,李铭.云计算下的海量数据挖掘研究[J].现代计算机(专业版).2009(11)
[4]王志宏.数据库中的知识发现概述[J].商场现代化.2006(24)
[5]胡艳慧,陈俊杰.空间数据库的数据挖掘[J].科技情报开发与经济.2007(05)
[6]邱晓辉.知识发现与数据挖掘分析[J].情报探索.2011(01)
[7]邹力鹍,王丽珍,姚绍文.数据挖掘方法本体研究[J].计算机科学.2005(03)
[8]Rao V S.Multi agent-based distributed data mining:an overview.International Journal of Reviews in Com-puting.2010
【关键词】流数据 数据挖掘 云计算 设计
一、引言
流数据聚类是非常关键的数据挖掘技术,其已经被众多行业、众多领域的流数据挖掘广泛采用。本文以一直沿用的流式数据聚类模型为基础,把云计算与聚类过程进行有效融合,借助模型提供的算法,实现即时高效的分析流数据所进行聚类过程,进而减少进行巨大数量的流式数据处理时占用的内存量,这样不但增多了针对数据进行处理的维度,也提升了对于数据拆解与计算的迁移能力,将流数据聚类这项技术的实际应用范围拓展到更加广泛的领域。
二、云计算简述
云计算实际上集分布式数据处理、数据并行处理、多维度网格计算于一身,也可以说云计算将上述复杂的计算机运算处理變得易于操作。借助将计算分散于多部分布式计算机中,而并不是通常意义上的非本地或者远程计算机中,把大量由网络衔接在一起的计算设备进行统一的协调与分配,把数据中心所能提供的一切资源建成资源池向合资格的数据需求用户提供针对性的服务。
我们把在进行云计算的时候云计算中心可以提供的服务分成三个不同的层次。只要用户参与进了云计算,那么其不再需要任何形式的服务器、客户端等辅助设备或者软件,就能够在任意时间、任意地点、任意设备上经由浏览器进行数据的访问,这里云计算可以提供的服务分别为: 软件即服务(Soft-ware as a Service,SaaS),平台即服务(Platform as a Service,PaaS),基础设施即服务(Infrastructure as a Service,IaaS)。
由于云技术自身的优势,把它融合进流数据的挖掘模型里,不但能够借助资源的分享与虚拟利用降低内存的占用量,还能够借助其可以提供的服务提升流数据挖掘的即时处理能力以及速度。上述过程中,数据资源的调用以及计算对于数据挖掘负责人员是透明的,这样自然能够降低内存的使用量,提升数据挖掘的质量以及效率。
三、以云技术为基础的流数据挖掘构建
基于现在流数据聚类的不断进步,同时考虑到云技术的发展以及应用状态,本文借助在流数据处理模型里融合云计算以及操作平台,利用平台所能提供的各种服务,在浮动窗口方式下构建出以云技术为基础的流式数据聚类模型,具体设计如下图1所示。
此模型包括以下四部分:数据流预处理部分,流数据处理部分,云技术服务部分,数据查询部分。借助采用云技术能够把数据流中的数据模块进行精简,也就是把当中有些数据的调用与检验借助云计算部分进行分散,这样可以有效提升数据模块在进行大量数据处理时的效率,还能够降低数据流处理部分占用的内存比例。
(一)中间资源池模块。由于内存空间毕竟有限,一旦数据中心有大量数据经过浮动窗口同时需要预处理的时候,可以通过中间资源池把数据调用操作相对初级的计算划到中间资源池中,进而把数据预处理的整个过程分散进行。
(二)软件即服务模块。该模块借助互联网不定时的向数据挖掘负责人提供基本软件服务,L2是云端模式,能够提升运算速度与数据服务质量。在具体的应用中,用户可以按照自己的需要向云端进行注册申请,一旦申请成功就需要支付云计算中心相关的服务费用,然后享用所需的软件服务。
(三)平台即服务模块。该模块可以向用户提供多种具体的操作平台,用户借助上述平台可以调用所需的应用程序,同时使用相应的服务,这样的平台能够把模式化的操作过程在云端进行分散。
(四)基础设施即服务模块。这个模块可以把挖掘时必须用到的计算组件集中在一起,形成资源池,从而向用户提供科学高效的数据挖掘过程,这样也有效防止了由于内存限制而造成的数据处理效率低下现象。
四、结论
经过理论研究以及实践检验我们发现,把云计算融合进数据流的聚类算法中,可以实现对大量数据的即时处理,降低内存的占用比例,提升该算法的数据预处理能力、对海量数据的处理速度以及数据分析能力。
参考文献:
[1]王晓楠.云计算时代我国数字图书馆的发展[J].价值工程.2011(06)
[2]金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报.2004(08)
[3]王鄂,李铭.云计算下的海量数据挖掘研究[J].现代计算机(专业版).2009(11)
[4]王志宏.数据库中的知识发现概述[J].商场现代化.2006(24)
[5]胡艳慧,陈俊杰.空间数据库的数据挖掘[J].科技情报开发与经济.2007(05)
[6]邱晓辉.知识发现与数据挖掘分析[J].情报探索.2011(01)
[7]邹力鹍,王丽珍,姚绍文.数据挖掘方法本体研究[J].计算机科学.2005(03)
[8]Rao V S.Multi agent-based distributed data mining:an overview.International Journal of Reviews in Com-puting.2010