基于FP-tree的关联规则挖掘算法研究

来源 :中国民用航空学院 中国民航大学 | 被引量 : 0次 | 上传用户:wuzhi1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一种半自动地从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中有用的信息和知识的过程。数据挖掘可以从数据中提取人们感兴趣的可用信息和知识,并将提取出来的信息和知识表示成概念、规则、规律和模式。 Internet技术的迅猛发展为数据挖掘提供了更为丰富的素材和广阔的发展空间,基于Web的数据挖掘已成为数据挖掘领域的研究热点。Web挖掘是数据挖掘在Web上的应用,涉及Web、数据挖掘、计算机语言学、信息学等多个领域。Web挖掘的过程包括:数据采集、web数据预处理、挖掘过程、结果评价。 长久以来,挖掘频繁模式主要采用Apriori算法及其改进形式,这种算法需要产生大量的候选项集,并且反复地扫描数据库,降低了挖掘效率。FP-Growth算法是一种基于模式增长的频繁模式挖掘算法,避免了大量候选项集的产生,只需要两次扫描数据库,效率比Apriori算法快一个数量级。本文所作的主要工作如下: 1.通过研究,发现经典的FP-tree挖掘在实际的挖掘过程中,由于FP-tree本身的缺陷和经典挖掘算法的局限,存在效率不高,二次开发困难的问题,因此文中提出了基于IFP-tree的改进算法,算法的中间结果和得到的频繁模式都使用数据库存储,而且算法在建立FP-tree树的速度上有一定的改进。 2.本文实现了一个基于IFP-tree的挖掘实验系统,分析在参数改变时挖掘算法对建树过程和模式发现过程的时间消耗比较。发现IFP-tree结构大大提高了建树的速度。 3.将传统数据挖掘中的关联规则技术引入到web日志挖掘中,而求频繁模式集是关联规则的基础和核心,本文采取基于IFP-tree的挖掘算法,实现了一个web日志挖掘系统,系统可以对web日志根据用户输入的最小支持度挖掘出相应的web频繁模式,进而可以得到关联规则。实验表明,本文提出的算法在处理web数据的挖掘时是高效可行的。
其他文献
21世纪以来信息技术的迅速发展,使互联网逐渐地成为一个巨大的信息体。面对海量的数据,我们如何对这些数据进行管理与组织,并且高速准确的从中找出有价值的内容成为现在信息
随着移动通信技术和空间信息技术的发展,移动定位服务受到了广泛的关注,并且在公共安全服务、紧急报警服务、车辆交通管理和寻人服务等方面起着越来越重要的作用。但是现有GS
随着科学技术的飞速发展和市场、经济的全球化,市场竞争形式从企业间的竞争逐渐演进为供应链之间的竞争。在这种新环境下,供应链管理(Supply ChainManagement,SCM)作为一种提
  本文在分析了Oracle,Linux等软件的存储结构特征及备份机理之后,归纳出其在数学上的性质,从而为数据备份建立了基于测度概念的理论模型;建立了数据备份恢复的一个基本模型,然
闪存是一种新型半导体存储器,它凭借高密度、高存储速度、低成本和防震等优点,成为了当前主流的固态存储器。然而随着人们对存储密度需求的不断加大,早期的单级闪存逐渐被多
随着计算机网络技术和多媒体技术的迅猛发展,以视频会议,远程教育为代表的具有多播传输特性的多媒体业务不断涌现,并已在校园网和企业网中得到广泛的应用。多媒体多播业务发
学位
汽车牌照自动识别系统是目前交通部门十分重要的科研项目之一,在交通部门的违章检测(电子警察)、高速公路自动收费和智能停车场管理等方面有着广阔的应用前景。从实际场景中切
随着网络技术的飞速发展,网络传输速度不断提高,系统对关键网络设备的处理速度要求不断提高。IPSec VPN作为数据转发的安全平台,很容易成为网络系统的瓶颈。传统的IPSec VPN
数据库中间件是连接信息孤岛的“桥梁”,是所有中间件中应用最广泛、技术最成熟的一种。在集成异构数据库时,数据库中间件内在的优化和转换机制提高了数据访问的执行效率。然