基于FP-tree最大频繁模式超集挖掘算法

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:hello0306
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自上世纪80年代数据挖掘被提出以来,人们就开始不断研究探索,希望找到高效准确的数据挖掘方法,来帮助解决数据量庞大而计算能力有限这一矛盾。   数据与数据间存在着潜在的联系,数据关联是数据库中存在的一类重要的可被发现的知识。1993年,Agrawal等提出了挖掘数据库中项集间的关联规则问题,自此诸多研究人员对关联规则的挖掘问题进行了大量的研究,并且提出了很多的经典算法。大部分算法在执行过程中多次扫描数据库,并产生大量的候选集,造成了时间和存储空间的浪费。本文在FP-growth算法基础上,对最大频繁模式挖掘算法进行了深入的研究,主要工作如下:   1.构造条件频繁模式树。扫描事务数据库,将频繁项目集压缩成一棵频繁模式树,保留项目集之间的关联信息。在把每个事务中的频繁项目集插入到FP-tree的过程中,采用动态指针来实现,提高存储空间利用率。   2.改进的最大频繁模式树(MMFIT)。MFIT中每条从根结点出发到某个叶结点的路径表示了一个全局最大频繁项集,中间结点所记录的是该结点到根结点的路径长度,在超集检测时,可以通过项头表快速地访问到包含待测项集的最大频繁项集对应的路径,然后自底向上与待测项目集进行依次项目匹配。此算法无需产生大量的候选集,同时减少数据集扫描次数,降低数据库遍历时间。实验证明,此算法在降低候选项目集冗余度的同时有效提高了算法运行效率。   随着信息技术的发展,数据挖掘技术的应用将更为广泛。它为人们在实际商业活动提供了许多帮助,对银行业、销售业及其他商业活动等行为具有很高的指导意义。在未来的工作中,应将更多的重点转移到如何利用数据挖掘技术为生产生活服务。  
其他文献
1946年Dennis Gabor提出了一种同时用时间和频率表示一个时间函数的方法,这种方法被后人称为Gabor展开[2-3]。尽管Gabor变换在非平稳信号分析处理中有广泛的应用,如生物医学
现代制造企业的产品设计是基于知识的设计,统计表明约有90%的产品设计可以重用以前的设计知识。然而,由于对产品设计知识缺乏统一的组织和表示,无法表达知识的语义信息,导致设
随着计算机技术的发展和三维模型的广泛使用,怎样从大量的三维模型库中快捷高效地检索出人们想得到的三维模型这已经是一个需要尽快解决的重要科研课题。基于关键词的三维模
生物学与信息科学是目前世界发展最迅速,影响最广泛的两门学科,这两门学科交叉而形成的新兴研究领域属分子计算。根据目前的研究情况,分子计算可以归纳为两大主要的研究方向:
随着互联网技术的快速发展和个人计算机的普及,目前全世界每四个人中就有一个人使用计算机上网[1],2010年中国的网页数量高达336亿,其中87.8%的数据是以文本的形式存在[2]。
随着互联网进入生活的各方各面,网络入侵也日益成为人们面临的安全问题。因此,有效地检测到网络入侵行为具有十分重要的意义。网络入侵检测方法分为基于特征的入侵检测和异常
无线传感器网络是由部署在监测区域的大量廉价的微型传感器节点组成的,且由无线通信方式形成的一个多跳的自组织网络系统,它的目的是对网络覆盖区域内的感知对象进行实时的感
在分布式数据库中,系统的性能受查询策略的影响,而一个查询的处理代价通常是由进行通信的信息量来决定。半连接方法可以减少通信数据的传输量。分布式数据库具有并行处理子查
在基于内容的图像检索系统和人脸识别系统中,提取有效的鉴别特征是系统中的关键环节,是为下一步检索和识别的工作奠定基础的重要步骤。本文基于对子空间特征提取方法的深入研
何为数据挖掘?从字面意思理解就是对数据进行挖掘,本质的目的就是从数据库或其它相关信息库的大量数据中,挖掘出能够反映有效知识的数据的过程,是当前非常热门的一个研究领域