论文部分内容阅读
随着计算机信息技术的不断发展,在网络异常检测、实时交易信息、传感器监控等领域中,一种被称为数据流的新的数据处理模型被提出。其中涉及的热点问题之一就是针对数据流模型的频繁项(频繁项集)的挖掘算法。由于数据流具有大量及高速到达的特性,算法只能对数据进行一次处理并且不能保存全部数据。因此基于数据流环境下的挖掘算法的设计是一类极具挑战意义的工作。本文主要针对数据流频繁项以及频繁项集的挖掘展开研究,主要内容和创新点如下:本文在研究基于计数的经典算法“Space Saving”后,参考原有简单的数据模型,提出自己改进的思路。算法的核心思想是使用不同策略维护两个样本集内的数据,随后通过更新操作保留频繁项,删除集合内的非频繁项,最终输出数据的Top-k频繁项。通过这种方法处理样本集合,一定程度上避免数据初始频率过大就必然留存的这一问题。通过实验证明算法具有较好的挖掘准确率。然后本文又通过研究基于FP-tree模型的经典静态数据挖掘算法提出一种改进的数据结构,同时结合窗口技术使其适应在海量的流数据下运行。算法通过预处理阶段保存生成的潜在频繁项并作为构造NFP-tree中节点的记录输入,最终经过不断迭代生成所处理数据的完全频繁项集。为了能在构造公共前缀树的过程中体现数据出现前后的差异,加入一种计算时间权重的方式来响应用户对于更希望得到近期出现的频繁项集的查询需求。改进的算法通过仿真实验证明相比其他算法具有较好的性能,能够适应动态数据流下的挖掘过程。