论文部分内容阅读
数据挖掘技术是近年来数据库和人工智能等领域研究的热点课题,它引起了科学界和产业界的广泛关注。关联规则挖掘主要用于发现数据集中项之间的相关联系,是数据挖掘最先研究的问题之一,也是数据挖掘的一个主要研究方向。关联规则可以广泛地应用于各个领域,既可以检验行业内长期形成的知识模式,也能够发现隐藏的新规律。有效地发现、理解和运用关联规则,是完成数据挖掘任务的一个重要手段。本文首先对数据挖掘技术进行了较为简单的概括性介绍。然后在介绍关联规则挖掘基本算法—Apriori算法的基础上,对其性能进行了分析,并较详细归纳和分析了已有的一些典型的关联规则挖掘算法。接着介绍了基于关联图的关联规则挖掘算法,对算法性能进行了分析,指出了其存在的缺陷,并提出了两种改进的关联规则高效挖掘算法—基于完全子图的改进算法和基于有序树的改进算法。针对目前已有的关联规则挖掘算法在项目支持度阈值方面的缺陷,提出了项目支持度阈值的设定方法;并在已有的最小约束下的多支持度阈值关联规则挖掘算法的基础上提出了基于树的改进算法;在已有的最大约束下多支持度阈值关联规则挖掘算法的基础上提出了基于完全子图的改进算法。最后针对已有的关联规则挖掘算法在处理批量购买时存在的缺陷,提出了批量关联规则挖掘算法的构想。在基于完全子图的改进算法中,通过利用完全子图与频繁项集的对应关系,以完全子图结点的度作为判断标准,避免了一些不必比较项目之间的比较;同时通过对关联图的结点进行编号,完全避免了相同项目集的重复比较。从而使得在寻找k-项频繁集(k≥3)的过程中,时间复杂度远小于原算法的1/(k-1)。因此,该改进算法减小了存储空间,加快了挖掘速度,提高了算法的效率。在基于有序树的改进算法中,在对项目进行编号的基础上,得到有序的频繁2-项集,根据有序频繁2-项集构造有序频繁树。由于在树的各结点对是有序的,从而完全避免了相同项目集的重复比较。通过实例的分析得到:基于有序树的改进算法的挖掘效率加快了挖掘速度,提高了算法的效率。