论文部分内容阅读
频繁项目集的挖掘是数据挖掘领域最重要的研究方向之一。近年来,以互联网为代表的信息技术加速着全球的数字化进程,在给人们生活带来便利的同时也产生了规模非常庞大的数据,而且这些数据的维数非常高。因此,针对目前的大规模数据,主要研究海量高维数据的频繁项目集挖掘算法。提出了高效的、负载均衡的、扩展性良好的频繁项目集挖掘算法,同时设计了基于MapReduce编程模型的分布式算法。实验结果显示,该算法在时间复杂度和空间复杂度上相比传统算法都有明显的提升。