基于Hadoop的改进的并行FP-Growth算法

被引量 : 0次 | 上传用户:guicailea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁模式挖掘是数据挖掘领域的重要算法。频繁模式挖掘在事务数据库、时间序列数据库和许多其他类型数据库的挖掘研究中都得到了广泛的应用。然而,传统的Frequent-patternGrowth算法(简称Fp-Growth算法)在处理大规模数据时,无论是存储上还是计算上都会遇到瓶颈,这就需要对Fp-Growth算法进行并行化处理。现有的并行Fp-Growth算法已经解决了如何划分数据库事务集这一问题,并保证了划分后的事务集彼此之间相互独立,但是现有的并行Fp-Growth算法在对事务集进行划分的时候缺乏了对负载均衡的考虑。因此,实现负载均衡的并行Fp-Growth算法是本文的主要问题。   Hadoop是Apache基金会下的一个开源的分布式并行编程框架,允许计算机集群通过使用简单的编程模型分布式的处理大型数据集。Hadoop解决了并行计算存在的工作调度、分布式存储、容错处理、网络通讯等问题,这就使得开发者只需要关注算法本身,而系统本身的调度等问题都交由Hadoop处理。基于上述原因,所以本文使用Hadoop框架来实现并行化的Fp-Growth算法。   本文主要完成了以下两个工作,一个是对现有的并行Fp-Growth算法提出了改进,另一个是将本文提出的并行算法应用于频繁用户访问序列的挖掘上。首先,本文在国内外的并行Fp-Growth算法的研究基础之上,利用估算每一个频繁项的负载的方法,对现有的并行Fp-Growth算法的分组策略进行了改进。实验证明本文提出的改进的并行Fp-Growth算法优于现有的并行Fp-Growth算法,本文提出的算法具有更好的负载均衡能力和执行效率。其次,由于Web服务器日志上存储了海量的用户访问信息,因此,可以从海量的数据中发现那些隐藏起来的、有价值的用户行为信息。所以,本文将提出的算法应用于Web日志挖掘这一领域,用来挖掘频繁的用户访问序列。基于这一应用方向所得到的结果可以对日志的来源网站提供指导和参考意见,具有实际的应用价值和商业价值。
其他文献
随着对极化SAR (Synthetic Aperture Radar)图像分类研究的深入,近年来许多监督和非监督分类方法被相继提出。早期的极化SAR图像分类算法是基于其统计特性的。之后,物理散射
“眼球追”技术为研究现实生活中人们从事具体事务时如何处理视觉信息提供了一个独特的视角。该技术被有效应用于诸多学科中,如计算机科学、神经学、实验心理学等,用来量化研究
近年来数据库技术发展迅速,随着各类数据库被广泛的应用到企业、政府、科研机构等各个领域中,网络信息的规模呈现出大爆炸的趋势,人们对于这种大量的数据的分析和处理的能力
人脸识别(FaceRecognition)属于模式识别领域的重要课题之一,在门禁系统、安防系统、考勤系统、刑事案件侦破等领域都已有广泛的应用。随着社会的进步,科技的发展,人们在享受办
伴随着计算机的发展,计算机的运行速度在不断提升,但是尺寸却变得越来愈小,而近几年更是在往小型移动设备方向不断发展。正是由于PC设备的不断完善以及移动设备的快速发展,普通用
模式匹配是计算机应用领域重要的研究方向之一,广泛应用于入侵检测、信息检索、生物科学等方面。随着计算机网络技术的飞速发展,信息量呈爆炸式增长,如何提高模式匹配算法的性能
乳腺癌是全世界女性最常见的恶性肿瘤之一,且其发病率和死亡率在近年呈现迅速增长的趋势,早期的发现与确诊是降低乳腺癌死亡率的关键,也是早期诊断的关键。其中,肿块是乳腺疾
图像的边缘细节信息直接影响图像的视觉质量。传统的超分辨算法会出现边缘模糊和锯齿等现象,本课题分析了国内外的成果,把张量能保持图像局部结构信息的特征引入到超分辨中,根据
无线传感器网络(Wireless Sensor Network-WSN)作为物联网的“末梢神经”,是一种综合数据感知与采集、融合处理和信息传输功能于一体的无线自组织智能群体型网络信息系统,其
随着信息技术的不断发展,信息获取能力的不断提高,人们往往需要分析和处理各种高维数据,如:海量web数据、遥感图像、微阵列数据等等。这些高维数据通常会导致机器学习算法的计算