基于关联规则数据挖掘算法的研究

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:colala2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则揭示了项集间有趣的相联关系,广泛应用于购物篮分析、相关分析、分类、网络个性化服务等领域,是数据挖掘的重要研究课题。自1993年R.Agrawal,R.srikant首次提出该问题以来,已出现了许多关联规则挖掘算法,这些算法大多基于Apriori算法,针对静态数据,从中挖掘出用户感兴趣的关联规则。这种方法实现简单,但是由于没有充分利用已经获得的发现结果,浪费了大量的计算时间及硬件I/O,因此效率非常低下。 本文介绍了数据挖掘的基本概念、常用技术及相关知识,阐述了数据挖掘的发展现状及增量数据挖掘的重要意义,讨论了挖掘关联规则的经典算法Apriori及常用的几种改进算法,在此基础上,重点分析了常用增量关联规则挖掘算法FUP、IUA,总结了它们效率低下的主要原因。 增量关联规则挖掘是关联规则挖掘研究的重要方向,其最直接的做法是重新运行一遍Apriori算法,但是这种方法没有充分利用以前的挖掘结果,增加了很多不必要的运算时间。在分析、总结原有算法的基础上,针对现行增量挖掘算法的困难和不足,本文提出了TIUA(prefix-based binary Tree Incremental Update Algorithm)算法。该算法通过研究项集之间的关系,发现大项集之间存在着一种特定的关系,即k-项集一定是由一个()-项集加上一个单独的项构成的。TIUA算法利用这种特定关系,将链表插入、删除以及二叉树查找等高效特性结合起来,摆脱了传统算法多次迭代的不足,只需扫描一次数据库,就能满足各种要求,通过以空间换时间,达到提高挖掘效率的目的。该算法充分利用以前挖掘的结果,不用重新扫描旧事务数据库,而只需扫描新增事务数据库一次,从而有效的提高了挖掘效率,同时将挖掘出来的结果有效地保存,以便下次增量挖掘时充分利用。 本文阐述了TIUA算法的设计和实现过程,并将该算法与Apriori算法的运行结果进行比较分析,进一步证明了该算法的高效性。
其他文献
学位
学位
学位
学位
期刊
期刊
期刊
学位
学位
学位