Hadoop平台下的并行Web日志挖掘算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:qwsxty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈。针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件。实验结果表明,该算法的加速比能随着数据集的增大而提高,其执行效率优于串行FP-growth算法。
其他文献
分析了对于目前我国住宅节水的现状以及一些有针对性的问题,并总结了一些简单实用、便于实施的方法,以促进我国建设节水型社会理念的推广,从而实现节约用水、缓解我国水资源
<正> 二、新奇独特广告语言不同于其他书面语言,它既没有听读的强制性,又没有接受的专一性.因此,在当今经济竞争愈加激烈的商品社会,千人一面、万人一腔的广告语言必将掩饰商
笔者与《数学教学通讯》2009年7月号上“浅谈如何作有关圆的切线”一文有如下同感,作图题在数学教师中没有引起足够的重视.在这里,笔者就圆的切线问题,从另外角度出发,介绍几种方
目的:分析我国现行药品生产准入制度存在的问题并提出完善的建议。方法:通过将我国的药品生产准入制度与发达国家进行比较,结合各自的国情分析其合理性,并对我国的药品生产准
汽轮发电机组在启动和正常运行过程中,抽真空设备都要投入运行,其工作的正常与否直接影响凝汽器的真空以及机组能否安全、经济运行。结合结构、性能等方面详细分析了目前广泛
<正> 产后尿潴留是一临床較常见的症状,我科于1963用“一味瓜蔞湯”坐浴治疗2例产后尿潴留,均获得滿意的疗效。减少了患者的痛苦和經济負担。特整理出来供同道們参考。一、病
随着现代医学科学的迅速发展,新技术、新医疗设备层出不穷,从而与之相符的现代化医疗建筑——医院,也面临着新的设计理念和新技术的运用。由于高层建筑有建筑高度高、建筑面
目的建立葡萄糖-6-磷酸脱氢酶缺乏症基因型检测的新方法及深入了解梅县地区大学生G6PD缺乏症的流行特征。方法经G6PD酶活性定量测定法确诊为G6PD缺乏症患者,用高分辨率熔解曲
目的:探讨复方苦参注射液联合羟考酮缓释片治疗重度癌性疼痛的近期疗效。方法:将90例重度癌痛患者随机分成治疗组和对照组,治疗组给予羟考酮缓释片联合复方苦参注射液治疗;对
基于图割的交互式图像分割方法从图像背景中分离出前景目标,在图像处理和计算机视觉领域引起了广泛的关注.为了进一步提高分割精度,提出一种结合图像非局部信息和图割的交互