基于计数的数据流频繁项挖掘算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:xub23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机信息技术的不断发展,在网络异常检测、实时交易信息、传感器监控等领域中,一种被称为数据流的新的数据处理模型被提出。其中涉及的热点问题之一就是针对数据流模型的频繁项(频繁项集)的挖掘算法。由于数据流具有大量及高速到达的特性,算法只能对数据进行一次处理并且不能保存全部数据。因此基于数据流环境下的挖掘算法的设计是一类极具挑战意义的工作。本文主要针对数据流频繁项以及频繁项集的挖掘展开研究,主要内容和创新点如下:本文在研究基于计数的经典算法“Space Saving”后,参考原有简单的数据模型,提出自己改进的思路。算法的核心思想是使用不同策略维护两个样本集内的数据,随后通过更新操作保留频繁项,删除集合内的非频繁项,最终输出数据的Top-k频繁项。通过这种方法处理样本集合,一定程度上避免数据初始频率过大就必然留存的这一问题。通过实验证明算法具有较好的挖掘准确率。然后本文又通过研究基于FP-tree模型的经典静态数据挖掘算法提出一种改进的数据结构,同时结合窗口技术使其适应在海量的流数据下运行。算法通过预处理阶段保存生成的潜在频繁项并作为构造NFP-tree中节点的记录输入,最终经过不断迭代生成所处理数据的完全频繁项集。为了能在构造公共前缀树的过程中体现数据出现前后的差异,加入一种计算时间权重的方式来响应用户对于更希望得到近期出现的频繁项集的查询需求。改进的算法通过仿真实验证明相比其他算法具有较好的性能,能够适应动态数据流下的挖掘过程。
其他文献
无线体域网(Wireless Body Area Network,WBAN)能够为患者提供低成本、持续、准确的医疗监护,近年来已成为远程医疗、重症监护等领域的新趋势。而受人体安全和元器件能量限制
目前,基于X.509标准的公钥基础设施已成为网络安全建设的基础与核心,是电子商务安全实施的基本保障,对PKIX技术的研究和开发已成为当前信息安全领域的热点。 本文旨在设计
随着计算机网络技术的日益发展,无论是机关、单位还是家庭、个人,都可以通过Internet获取资源、共享信息,网络与信息安全问题也变得日益突出。电子政务在我国国民经济生活中发挥
本文论述了基于服务元网络体系结构的虚电路结构的原型主机。服务元网络体系结构是一种基于服务元的全新型的网络体系结构,它不同于层次网络系统结构,具有简洁、可扩展和容易
无线传感器网络研究中,MAC层处于网络协议的底层部分,控制信道分配,对网络性能有很大影响。针对无线传感器网络特点,MAC层的设计需要尽可能降低网络能耗,同时兼顾时延和吞吐量。另
现代科学实践活动及其成果的迅速增加,极大地提高了文献更新和增长的速度。随着Internet的蓬勃发展,信息检索已成为收集相关资料和评价的必要手段。文摘作为文献内容的缩影,
随着Linux在中国快速的传播和嵌入式系统的快速发展,对国内的Linux用户来说,嵌入式Linux的中文化便迫在眉睫。随着嵌入式Linux操作系统的不断发展以及它在不同领域的应用,对
随着嵌入式系统软件(如嵌入式操作系统)的发展成熟,嵌入式软件开发的重点已经由前期的嵌入式系统软件开发转向嵌入式应用软件的开发上来。一个功能强大的面向应用开发的任务
一直以来,煤矿资源就给我国的煤炭行业带来了巨大的经济利益,这依赖于矿井勘探人员和施工人员的不懈努力。为了合理地去开发和利用现有的矿山资源,达到即能满足人类社会的消耗水
TTCN-3是欧洲通讯标准协会(ETSI)在原有标准基础上推出的一种新的测试描述语言,功能更为强大,应用范围更为广泛,且不再局限于一致性测试。TTCN-3测试平台的体系结构也与以往