基于关联规则数据挖掘算法的研究

论文部分内容阅读

关联规则揭示了项集间有趣的相联关系，广泛应用于购物篮分析、相关分析、分类、网络个性化服务等领域，是数据挖掘的重要研究课题。自1993年R.Agrawal，R.srikant首次提出该问题以来，已出现了许多关联规则挖掘算法，这些算法大多基于Apriori算法，针对静态数据，从中挖掘出用户感兴趣的关联规则。这种方法实现简单，但是由于没有充分利用已经获得的发现结果，浪费了大量的计算时间及硬件I/O，因此效率非常低下。本文介绍了数据挖掘的基本概念、常用技术及相关知识，阐述了数据挖掘的发展现状及增量数据挖掘的重要意义，讨论了挖掘关联规则的经典算法Apriori及常用的几种改进算法，在此基础上，重点分析了常用增量关联规则挖掘算法FUP、IUA，总结了它们效率低下的主要原因。增量关联规则挖掘是关联规则挖掘研究的重要方向，其最直接的做法是重新运行一遍Apriori算法，但是这种方法没有充分利用以前的挖掘结果，增加了很多不必要的运算时间。在分析、总结原有算法的基础上，针对现行增量挖掘算法的困难和不足，本文提出了TIUA(prefix-based binary Tree Incremental Update Algorithm)算法。该算法通过研究项集之间的关系，发现大项集之间存在着一种特定的关系，即k-项集一定是由一个()-项集加上一个单独的项构成的。TIUA算法利用这种特定关系，将链表插入、删除以及二叉树查找等高效特性结合起来，摆脱了传统算法多次迭代的不足，只需扫描一次数据库，就能满足各种要求，通过以空间换时间，达到提高挖掘效率的目的。该算法充分利用以前挖掘的结果，不用重新扫描旧事务数据库，而只需扫描新增事务数据库一次，从而有效的提高了挖掘效率，同时将挖掘出来的结果有效地保存，以便下次增量挖掘时充分利用。本文阐述了TIUA算法的设计和实现过程，并将该算法与Apriori算法的运行结果进行比较分析，进一步证明了该算法的高效性。

其他学术论文