论文部分内容阅读
数据挖掘是从大量数据中通过算法挖掘出有利于决策的信息的过程,关联规则挖掘作为数据挖掘的一个有效方法,能便捷地从数据中提取有用的知识。但是,传统的关联规则挖掘方法在处理至少数百万的大数据时挖掘速度较慢,且容易挖掘到冗余的关联规则。而且,传统方法在处理增量式数据时存在历史数据重复挖掘、规则挖掘准确率不高的问题。针对以上问题,本文基于分布式计算的思想,分别在针对关联规则的去冗余方面和对大数据的关联规则挖掘的速度优化方面进行了研究和探索,并且研究了一种增量关联规则挖掘算法,最后将算法应用到在线零售上为上层决策者提供有用的信息。本文主要工作如下:1.构建了一种基于分布式计算的较优关联规则挖掘算法。针对现有方法在大数据环境下挖掘速度较慢且挖掘到的关联规则存在大量冗余的问题,基于分布式计算将数据分为多个部分,采用针对不同项集长度的频繁项集挖掘方法从各个部分挖掘局部频繁项集并进行整合;然后结合深度优先搜索从最大频繁项集出发,根据提升度计算项集质量,根据相对质量大小去除冗余项集;最后仅对剩下的项集进行挖掘并生成相应的关联规则,而不是根据置信度生成规则。该方法减少了对冗余频繁项集的挖掘而产生的计算资源的浪费,且没有使用参数置信度来挖掘关联规则,减少了对参数置信度的调整时间。2.构建了一种增量关联规则挖掘算法。针对现有方法不能对增量式数据进行高效挖掘且挖掘到的关联规则准确度不高的问题,本文构造了一种优化的基于分布式计算的增量关联规则挖掘算法。该算法从保证挖掘准确率、提高挖掘速度出发,在面临新增数据的情况下避免了对历史数据的重复挖掘,只使用了历史挖掘结果保留下来的中间数据,并加入了位图检索方法进一步提高挖掘速度。3.基于关联规则挖掘的在线零售应用。针对在线零售应用场景存在的挖掘速度和挖掘信息存在冗余的问题,本文将基于分布式计算的MR-IARM算法应用在实际生活中的在线零售场景上,对商品数据进行了高效的分析决策,为上层决策者提供精准的信息。