论文部分内容阅读
关联规则揭示项集间有趣的相联关系,可广泛应用于市场营销、医学、金融、生物、电信、农业等领域,是数据挖掘的重要研究课题。自1993年R.Agrawal,R.Srikant首次提出该问题以来,已出现了许多关联规则挖掘算法。 Fp-growth算法是当前挖掘频繁项目集算法中应用最广,并且不需要候选集的一种挖掘关联规则的算法。但是,Fp-growth算法在挖掘大型数据库时占用内存大和运行速度慢。为了克服这些不足,本文基于Fp-growth算法提出了两种新的适合于挖掘大型数据库的关联规则算法,即新算法1和新算法2。 这两种新算法采用不同的数据库分解方法将数据库分解,然后对分解得到的各个数据库子集用Fp-growth算法进行约束频繁项挖掘,得到含有各个频繁1-项集的项的频繁项集,最后将这些频繁项集合并起来便得到整个数据库的所有频繁项集。在进行数据库分解时,新算法1是对数据库进行频繁1-项集的项总数次扫描,每次扫描分别得到各个频繁1-项集的项的数据库子集;而新算法2则是将数据库分解为一个保存事务信息的数据链表组,并用消除头项、迭加后继项的方式将数据链表组中的首数据链表分解,然后组合成新的数据链表组,并继续分解其首数据链表。如此反复下去,逐步地组合成频繁1-项集的项总数个数据库子集。 本文通过实验比较了两个新算法与Fp-growth算法的性能。实验表明,当最小支持度较小或者数据库很大时,新算法1和新算法2由于所采用的数据库划分策略缓解了Fp-growth算法单独使用时对内存的巨大需求,占用内存小,因而,挖掘速度比Fp-growth算法快,是适合于大型数据库的关联规则挖掘算法。且新算法2由于创建数据库子集的时间开销比新算法1小,因而比新算法1的运行速度更快,所以新算法2比新算法1更适于挖掘大型数据库。 本文在提出了新算法1和新算法2后,还介绍了新算法1和新算法2挖掘关联规则的一个应用实例。