论文部分内容阅读
数据挖掘是一种重要的数据分析技术,而关联规则是一种描述型数据挖掘,关联规则的算法属于无监督学习的方法。动态关联规则挖掘,是在普通关联规则的基础上进一步描述了规则和数据特性随着时间变化的特征,它为关联规则的发展注入了新的活力。本文对数据挖掘,包括关联规则的基本知识做了简要介绍,然后重点对动态关联规则挖掘及其相关算法进行了讨论,给出了ABM算法在动态关联规则上的改进和应用,以及在此基础上将改进的线性链表应用在动态关联规则上,并通过实验验证了算法的有效性。 本文首先对数据挖掘的发展过程、基础知识,以及数据挖掘应用的重要性和发展方向进行了简要的讨论,介绍一些关联规则的必要知识,同时也对关联规则挖掘算法中的三种经典算法进行了详细的描述,讨论了动态关联规则的基础概念及其特点,并介绍了两种经典动态关联规则的挖掘算法。 在上述工作的基础上,给出了ABM算法在动态关联规则上的改进和应用,它采用垂直的数据结构表示格式,并利用矩阵来存储运算所需的辅助信息,同时在挖掘的过程中,创建一维数组来存储所有项目能与数组元素所代表的项目组合成频繁2-项集的数目,且编号不大于该数组元素的编号。该算法通过对矩阵和数组中的值与支持度阈值进行比较,决定是否需要进行交运算,以有效剪裁不必要的运算量。 本文重点是在ABM算法的基础上将改进的线性链表应用在动态关联规则上,它也采用垂直的数据结构表示格式,但与其不同之处是,采用线性链表存储频繁(k-1)-项集的运算结果,并在此基础上充分利用这个运算结果,继而生成频繁k-项集。 本文中所述的两种改进措施,通过实验已证明了其在准确率和时空效率上都有一定的优势。