基于Fp-growth算法的关联规则挖掘算法研究和应用

被引量 : 0次 | 上传用户:khsim
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则揭示项集间有趣的相联关系,可广泛应用于市场营销、医学、金融、生物、电信、农业等领域,是数据挖掘的重要研究课题。自1993年R.Agrawal,R.Srikant首次提出该问题以来,已出现了许多关联规则挖掘算法。 Fp-growth算法是当前挖掘频繁项目集算法中应用最广,并且不需要候选集的一种挖掘关联规则的算法。但是,Fp-growth算法在挖掘大型数据库时占用内存大和运行速度慢。为了克服这些不足,本文基于Fp-growth算法提出了两种新的适合于挖掘大型数据库的关联规则算法,即新算法1和新算法2。 这两种新算法采用不同的数据库分解方法将数据库分解,然后对分解得到的各个数据库子集用Fp-growth算法进行约束频繁项挖掘,得到含有各个频繁1-项集的项的频繁项集,最后将这些频繁项集合并起来便得到整个数据库的所有频繁项集。在进行数据库分解时,新算法1是对数据库进行频繁1-项集的项总数次扫描,每次扫描分别得到各个频繁1-项集的项的数据库子集;而新算法2则是将数据库分解为一个保存事务信息的数据链表组,并用消除头项、迭加后继项的方式将数据链表组中的首数据链表分解,然后组合成新的数据链表组,并继续分解其首数据链表。如此反复下去,逐步地组合成频繁1-项集的项总数个数据库子集。 本文通过实验比较了两个新算法与Fp-growth算法的性能。实验表明,当最小支持度较小或者数据库很大时,新算法1和新算法2由于所采用的数据库划分策略缓解了Fp-growth算法单独使用时对内存的巨大需求,占用内存小,因而,挖掘速度比Fp-growth算法快,是适合于大型数据库的关联规则挖掘算法。且新算法2由于创建数据库子集的时间开销比新算法1小,因而比新算法1的运行速度更快,所以新算法2比新算法1更适于挖掘大型数据库。 本文在提出了新算法1和新算法2后,还介绍了新算法1和新算法2挖掘关联规则的一个应用实例。
其他文献
本文从历史和现实两个角度,就教育哲学学科和教育哲学思想两个方面,对已有的教育哲学研究成果进行了反思,认为教育哲学研究中存在着许多问题:自身理论建设滞后,重思想研究轻
在目前的金融形势下,证券公司融资是一个实践性强而且很紧迫的问题。国内许多知名学者对此做了许多卓有成效的研究。如何有效的解决证券公司的融资约束问题,对于证券公司自身
随着电信技术的更新换代,电信市场竞争日益激烈,中国电信面临着前所未有的困难和挑战。移动通信已成为未来电信业的主要利润来源之一。投资3G移动通信项目,进入移动通信领域,
<正>上接第9卷第5期原发性肺癌诊疗规范(2011年版)(一)5治疗5.1治疗原则应当采取综合治疗的原则,即:根据患者的机体状况,肿瘤的细胞学、病理学类型,侵及范围(临床分期)和发展
目的了解不同课程设置的临床专业医学生对社区导向医学教育的态度。方法选取我校1999级五年制临床医学专业两个班学生(分别为甲班、乙班),甲班较系统地进行社区医学和全科医
本文希望通过系统的研究,探讨家庭教育环境及家长教育方法与维吾尔族初中学生学业成绩的关系,并进一步研究维吾尔族初中学生家庭教育的总体状况,从家庭教育的角度对造成少数
较系统的论述了适于蔗渣进料用的螺旋轴几何参数的设计与计算,为解决早期制造的热磨机出现难进料及效率低的问题提供理论依据。
依据钢筋混凝土高轴压中短柱的震害特征 ,考虑到约束混凝土的强度大和变形性能好等特点 ,对中短柱进行分段外包钢板箍 ,期望提高其承载能力和变形能力 ,达到变强弯弱剪构件为
随着改革、开放的不断深入,我国的房地产业发生了巨大变化,城市物业管理应运而生,并逐步成为国民经济中的一个颇具发展前景的新兴行业。但是在我国,城市物业管理的概念与定义在引