【摘 要】
:
随着数据挖掘技术在商业、保险业等方面的广泛应用,从大型的数据库中高效地挖掘频繁模式是目前数据挖掘领域的主要研究内容。虽然,在过去的十几年间,提出了许多高效的频繁模式挖
论文部分内容阅读
随着数据挖掘技术在商业、保险业等方面的广泛应用,从大型的数据库中高效地挖掘频繁模式是目前数据挖掘领域的主要研究内容。虽然,在过去的十几年间,提出了许多高效的频繁模式挖掘技术,但是,这些技术大部分仅适用于相对小的数据库,对于那些现实中存在的较大的数据集就无法挖掘,并且不同的小型数据库有不同的特性。因而,很难说哪种方法有效,并且同一个数据库在给定不同的最小支持度时,也很难判断哪种方法更有效,只有在处理大型数据库时,不同的方法才会体现出差异。对于大型数据库,它包含大量的频繁项目集,因而挖掘所有的频繁项目集就存在许多的困难。实验证明:如果一个大小为L的频繁项目集,那么就要产生2~L-1个非空的子集。因此,目前研究的焦点主要是寻找一种高效的挖掘算法来挖掘像WalMark,UPS等大型数据库。 Pasquier等人在1999年提出了频繁闭合模式的概念。频繁闭合项目集是频繁项目集的另一种类型,它是所有频繁模式的子集,它删除了那些多余的模式。频繁闭合项目集比频繁项目集要小得多并且它能够唯一地决定所有频繁模式的准确支持度。因而,挖掘闭合项目模式,能大大减少结果集的大小并且不会丢失相关信息,在挖掘过程中,直接挖掘闭合项目集能大大减少运行时间。
其他文献
在对大量数据处理中,可以从不同概念层次、不同粒度上去观察、分析问题,从不同的属性值取值粒度层次中得到不同层次信息的知识,满足人们对不同抽象层次知识的要求。概念格是
Internet的快速发展,推动了Java语言的产生,促使了基于J2EE体系架构程序的流行。然而在J2EE平台上进行开发时,由于缺少大量成熟的可复用组件,使得Java开发的效率低下。 本文对
面对巨量的并发请求,现有服务平台大都缺乏能跟随负载同步增长的可伸缩服务能力,从而造成服务品质急遽下降。针对这一问题,本文通过对现行主流服务器内部结构的比较分析,提出
随着用户规模不断增大和业务系统复杂化,现在的数据中心规模越来越大,复杂程度越来越高。为了使得未来的数据中心能提供多种应用,结构更加扁平化,新一代的数据中心将更多的运用融
近年来,随着网络的迅猛发展,如何对网络上大量的自然语言文本按照既定的语义进行正确的归类,已经成为组织大量网络信息的一个关键问题。这就是文本分类的任务。电子文本成几
互连网的迅猛发展带来了日益严重的信息过载问题,推荐系统通过挖掘、分析用户与物品间的关系,向用户推荐其最可能感兴趣的物品,是解决信息过载问题的有效工具之一。传统协同过滤
随着嵌入式技术与网络技术的迅猛发展,将嵌入式系统连接进入Internet网络成为发展的必然,这样有利于控制网络与信息网络彼此互连,一方面扩大了控制网络的可控范围,另一方面拓
半虚拟化与单根输入输出虚拟化(Single-Root I/O Virtualization,SR-IOV)是目前主流的I/O虚拟化方式。SR-IOV支持对设备的原生共享,具有很好的I/O性能,但其受硬件限制仅能支持有限
现代企业生产经营活动中包含了各式各样的业务流程,可以说一个企业的生产经营活动就是由各式各样的流程组成的,因此业务流程和企业的生产经营是息息相关的。对业务流程进行建
本文研究Multi-Agent系统,众所周知,Multi-Agent系统及分布式人工智能已经成为当今人工智能领域研究的重点。Muli-Agent的基本问题是智能体之间的协调,可细分为单智能体设计、多