【摘 要】
:
频繁项目集最重要的数据挖掘研究方向之一。设计高效并行算法是大规模频繁项目集挖掘的主要挑战。论文基于MapReduce模型,提出负载均衡的并行频繁项目集挖掘算法;针对动态时变
【出 处】
:
中国科学院研究生院 中国科学院大学
论文部分内容阅读
频繁项目集最重要的数据挖掘研究方向之一。设计高效并行算法是大规模频繁项目集挖掘的主要挑战。论文基于MapReduce模型,提出负载均衡的并行频繁项目集挖掘算法;针对动态时变数据集,提出基于时间单元的增量式频繁项目集挖掘算法。主要贡献包括:
1.提出均衡的并行频繁模式增长算法(Balanced Parallel FP-Growth,BPFP)。在并行频繁模式增长算法(Parallel FP-Growth)的基础上,提出一种基于单元负载预估的分组方法对其进行负载均衡优化。实验结果表明,论文提出的均衡分组方法是有效的,BPFP算法可以加速频繁项目集发现过程。
2.提出基于时间单元的增量式频繁项目集挖掘算法(Time Unit-based IncrementalFrequent Itemset Mining,TUIFIM)。提出一种存储支持度计数累加和的数据结构,该结构支持快速访问项目集在任意时间段的支持度计数。遍历该结构即可发现数据集在任意时间段的频繁项目集。TUIFIM算法为基于特定时间段频繁项目集的知识发现提供有力支持。
3.设计实现基于频繁项目集的知识发现系统(FIMMA)。该系统中集成了BPFP算法与TUIFIM算法,并采用一种新颖的方法完成基于频繁项目集的知识发现流程,相比于传统方法,使用该系统可以在更短时间内发现更多基于频繁项目集的知识。
其他文献
以现场总线与工业以太网技术为代表的控制网络技术是现代自动控制技术和信息网络技术相结合的产物,也是下一代自动化设备的标志性技术。EPA标准作为我国第一个工业实时以太网
子午工程是我国空间科学领域第一个国家重大科技基础设施项目,探空火箭是子午工程的一个重点项目之一。本次任务于2011年5月7日7时在海南探空火箭发射场发射成功,发射高度为1
传感器、遥感平台、数据通信等技术的不断进步使得遥感数据的获取趋于“三多”(多平台、多传感器、多角度)和“三高”(高空间分辨率、高光谱分辨率和高时间分辨率),也使得所
生物信息学是一门运用数学和计算机科学等手段对海量的生物信息进行分析和研究的交叉学科。序列比对是当前生物信息学一个研究的热点。它对于发现生物序列中的结构、功能和进
自因特网得到普及以来,网络已成为信息传播的重要工具。网络安全和隐私问题也逐渐成为人们关注的焦点。传统的加密技术只能保护通信数据的安全,但通信实体身份信息的私密性却
随着通信技术的发展,形成了多种网络并存的异构/融合环境,所承载的业务的类型和数量也在急剧的增长,因而在这种网络场景中,业务的端到端QoS(Quality of Service)的保证变得更
Java虚拟机本身是一个与平台相关的应用程序,而Java程序被编译成符合Java虚拟机规范的二进制代码,由Java虚拟机来解释执行这些二进制代码,或者对这些二进制代码进行优化并翻
本论文主要介绍了基于DSP线性拟合算法补偿式积分器的设计与实现。作者通过对传统模拟积分器电路模数转换及数字信号处理DSP算法等方面的深入调研,给出了实际积分电路的理论
分类是数据挖掘中的重要技术,广泛应用于电子商务,生物信息学,商业智能等领域。然而,随着科技的发展特别是互联网技术的普及,数据规模和数据关系的复杂性都大大增加,传统分类技术已
近年来,计算机硬件成本下降,计算机的普及率迅速攀升,由此带来上网人群日益壮大。ISP网络提供商如何在现有网络资源基础上能够提供更多网络服务,以适应网络上不断出现的各种