论文部分内容阅读
云计算(Cloud Computing)技术是互联网快速发展以后才出现一个全新概念。时隔仅仅几年,云计算受到各界关注的程度就超过了网格计算(Grid Computing)。它在本质上讲它是一种商业计算模型,是将计算任务分布在大量计算机构成的资源池上,形成庞大的计算力来满足用户所需要的服务。简而言之,其原理是通过网络将庞大的计算任务分割成无数个较小的子任务,然后分发给各个计算节点处理,等处理完成之后将结果回传给用户。利用这种技术解决方案可以实现强大的计算能力。总之,云计算为普通用户和一般机构提供了强大的计算能力,并且大大地降低了成本。伴随着信息技术的飞速发展,信息量也在爆炸式的飞速增长。从这些海量的数据信息中挖掘出有用的信息,是件非常不容易的事情。许多传统数据挖掘算法往往只能适用小规模数据,当遇到处理海量数据时,它们往往会因处理量的非常巨大而速度减慢甚至无法运行。这无疑是许多传统挖掘算法的瓶颈。云计算它以其可靠、方便和无限强大的计算能力为海量的数据挖掘提供了可能。如果我们能够将传统的数据挖掘算法做改进,使其能部署在云计算框架下运行,对海量数据的处理中遇到的瓶颈问题将能迎刃而解。本文首先介绍云计算基本实现原理。当前各个知名的IT巨头提出的云计算解决方案各不相同。Google公司是云计算领域最知名厂家,它的解决方案简单而又高效,得到大多数人的认可[8]。所以本文主要以Google公司的云计算技术为例介绍相应的技术和策略,同时还主要介绍了开源Hadoop系统及分布式文件系统HDFS和并行处理框架与编程模型MapReduce。接着研究当前非常活跃的关联分类算法。在深入的研究关联分类算法的源泉关联规则算发的同时,并分析其传统算法的技术瓶颈。然后针对这种技术瓶颈提出一种改进方案。实验验证改进方案可以取得更好的性能。在本文的最后,对理论的研究做实验验证。并将这种算法Mapreduce化后部署在Hadoop实验集群平台上运行。实验证明关联分类在Hadoop集群上实现海量数据的分类能达到非常理想的效果。