论文部分内容阅读
关联规则挖掘一直都是数据挖掘中的重要研究领域。对于传统的关联规则挖掘,学者们提出了很多经典的算法,以及对这些经典算法的优化思路。基于候选集迭代的Apriori算法和基于树形结构挖掘的FP-Growth算法是其中的典型代表,根据文献调研发现,现阶段大部分的挖掘算法优化方案都是基于这两种算法实现的。然而,数据集变化时,已存在的挖掘结果会变得不可靠,这类算法都需要舍弃已有的挖掘结果,然后重新挖掘整个数据集,本文将这类挖掘方式称为静态关联规则挖掘。随着大数据时代的到来,数据集越来越大,这种静态挖掘算法效率非常低,特别是数据集变动比较小的时候。人们发现传统的静态关联规则挖掘不能解决现实中的大部分问题。因此,增量式关联规则挖掘受到了广泛的关注。目前为止,学者们提出了很多增量关联规则挖掘算法。其中,Fast Update Pruning(FUP)算法是一种解决数据库增加情况下关联规则挖掘的经典思路。FUP算法通过对现有频繁项的剪枝,减少了大量的计算。然而,该算法需要进行频繁的事务数据库扫描,当数据量很大时,此操作会成为该算法的性能瓶颈。为了解决这个问题,本文在矩阵压缩研究的基础上,将FUP算法与压缩布尔矩阵相结合,提出了一种新的增量关联规则挖掘算法——FUP algorithm based on compression matrix(FBCM)算法。此算法在分别扫描事务数据库和增量数据库一次后,建立两个可压缩布尔矩阵,并对布尔矩阵进行关联规则挖掘。该算法减少了大量的开销,并通过压缩矩阵节约了内存,减少了计算量,有效地提高了增量关联规则挖掘的计算效率。