论文部分内容阅读
数据挖掘是一种半自动地从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中有用的信息和知识的过程。数据挖掘可以从数据中提取人们感兴趣的可用信息和知识,并将提取出来的信息和知识表示成概念、规则、规律和模式。
Internet技术的迅猛发展为数据挖掘提供了更为丰富的素材和广阔的发展空间,基于Web的数据挖掘已成为数据挖掘领域的研究热点。Web挖掘是数据挖掘在Web上的应用,涉及Web、数据挖掘、计算机语言学、信息学等多个领域。Web挖掘的过程包括:数据采集、web数据预处理、挖掘过程、结果评价。
长久以来,挖掘频繁模式主要采用Apriori算法及其改进形式,这种算法需要产生大量的候选项集,并且反复地扫描数据库,降低了挖掘效率。FP-Growth算法是一种基于模式增长的频繁模式挖掘算法,避免了大量候选项集的产生,只需要两次扫描数据库,效率比Apriori算法快一个数量级。本文所作的主要工作如下:
1.通过研究,发现经典的FP-tree挖掘在实际的挖掘过程中,由于FP-tree本身的缺陷和经典挖掘算法的局限,存在效率不高,二次开发困难的问题,因此文中提出了基于IFP-tree的改进算法,算法的中间结果和得到的频繁模式都使用数据库存储,而且算法在建立FP-tree树的速度上有一定的改进。
2.本文实现了一个基于IFP-tree的挖掘实验系统,分析在参数改变时挖掘算法对建树过程和模式发现过程的时间消耗比较。发现IFP-tree结构大大提高了建树的速度。
3.将传统数据挖掘中的关联规则技术引入到web日志挖掘中,而求频繁模式集是关联规则的基础和核心,本文采取基于IFP-tree的挖掘算法,实现了一个web日志挖掘系统,系统可以对web日志根据用户输入的最小支持度挖掘出相应的web频繁模式,进而可以得到关联规则。实验表明,本文提出的算法在处理web数据的挖掘时是高效可行的。