论文部分内容阅读
大数据时代的到来,使得人们对数据的处理速度、利用率等方面的要求变得更高。在频繁项集挖掘方面,Count Distribution算法和Data Distribution算法是比较经典的并行频繁项集挖掘算法,由于挖掘过程中需要较大的存储空间和通信开销,挖掘效率并不十分理想。文中提出了一种基于二叉树的并行频繁项集挖掘算法,利用了MapReduce的并行性,先通过遍历二叉树的方法找出数据库中固定大小的所有子集,然后统计每个子集的出现次数,再与事先设定好的一个固定阈值进行比较,超过阈值的子集即为所求的频繁项集。通