基于计数的数据流频繁项挖掘算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户：xub23

【摘要】

：

随着计算机信息技术的不断发展,在网络异常检测、实时交易信息、传感器监控等领域中，一种被称为数据流的新的数据处理模型被提出。其中涉及的热点问题之一就是针对数据流模型

【作者】

：

吴媚

【机构】

：

山东师范大学

【出处】

：

山东师范大学

【发表日期】

：

2014年期

【关键词】

：

数据挖掘数据流 Top-k 频繁项 FP-tree 频繁项集

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机信息技术的不断发展,在网络异常检测、实时交易信息、传感器监控等领域中，一种被称为数据流的新的数据处理模型被提出。其中涉及的热点问题之一就是针对数据流模型的频繁项（频繁项集）的挖掘算法。由于数据流具有大量及高速到达的特性，算法只能对数据进行一次处理并且不能保存全部数据。因此基于数据流环境下的挖掘算法的设计是一类极具挑战意义的工作。本文主要针对数据流频繁项以及频繁项集的挖掘展开研究，主要内容和创新点如下：本文在研究基于计数的经典算法“Space Saving”后，参考原有简单的数据模型，提出自己改进的思路。算法的核心思想是使用不同策略维护两个样本集内的数据，随后通过更新操作保留频繁项，删除集合内的非频繁项，最终输出数据的Top-k频繁项。通过这种方法处理样本集合，一定程度上避免数据初始频率过大就必然留存的这一问题。通过实验证明算法具有较好的挖掘准确率。然后本文又通过研究基于FP-tree模型的经典静态数据挖掘算法提出一种改进的数据结构，同时结合窗口技术使其适应在海量的流数据下运行。算法通过预处理阶段保存生成的潜在频繁项并作为构造NFP-tree中节点的记录输入，最终经过不断迭代生成所处理数据的完全频繁项集。为了能在构造公共前缀树的过程中体现数据出现前后的差异，加入一种计算时间权重的方式来响应用户对于更希望得到近期出现的频繁项集的查询需求。改进的算法通过仿真实验证明相比其他算法具有较好的性能，能够适应动态数据流下的挖掘过程。

其他文献

无线体域网低能耗功率控制与调度算法研究

无线体域网(Wireless Body Area Network,WBAN)能够为患者提供低成本、持续、准确的医疗监护,近年来已成为远程医疗、重症监护等领域的新趋势。而受人体安全和元器件能量限制

学位

无线体域网低能耗反馈功率控制调度算法公平性

基于X.509标准的公钥证书管理系统研究

目前,基于X.509标准的公钥基础设施已成为网络安全建设的基础与核心,是电子商务安全实施的基本保障,对PKIX技术的研究和开发已成为当前信息安全领域的热点。本文旨在设计

学位

公钥基础设施X.509证书认证机构证书路径构造Java平台

授权管理基础设施在电子政务中的应用

随着计算机网络技术的日益发展，无论是机关、单位还是家庭、个人，都可以通过Internet获取资源、共享信息，网络与信息安全问题也变得日益突出。电子政务在我国国民经济生活中发挥

学位

公钥基础设施授权管理基础设施属性证书属性权威电子政务网络安全

服务元网络体系结构中主机虚电路模块的设计与实现

本文论述了基于服务元网络体系结构的虚电路结构的原型主机。服务元网络体系结构是一种基于服务元的全新型的网络体系结构,它不同于层次网络系统结构,具有简洁、可扩展和容易

学位

网络结构服务元微通信元虚电路

WSN中流量自适应的跨层MAC协议研究

无线传感器网络研究中，MAC层处于网络协议的底层部分，控制信道分配，对网络性能有很大影响。针对无线传感器网络特点，MAC层的设计需要尽可能降低网络能耗，同时兼顾时延和吞吐量。另

学位

无线传感器网络EA-MAC协议节点剩余能量流量自适应机制EACL协议跨层优化

基于概念扩充和综合评价的中文自动文摘研究

现代科学实践活动及其成果的迅速增加,极大地提高了文献更新和增长的速度。随着Internet的蓬勃发展,信息检索已成为收集相关资料和评价的必要手段。文摘作为文献内容的缩影,

学位

单文档文摘多文档文摘知网概念扩充综合评价理论

一种优化的嵌入式Linux中文平台的设计与实现

随着Linux在中国快速的传播和嵌入式系统的快速发展,对国内的Linux用户来说,嵌入式Linux的中文化便迫在眉睫。随着嵌入式Linux操作系统的不断发展以及它在不同领域的应用,对

学位

嵌入式Linux内嵌技术/外挂技术高效率高可靠性灵活性机内码

任务级调试的研究与实现

随着嵌入式系统软件(如嵌入式操作系统)的发展成熟,嵌入式软件开发的重点已经由前期的嵌入式系统软件开发转向嵌入式应用软件的开发上来。一个功能强大的面向应用开发的任务

学位

交叉调试任务级调试Target ServerTarget Agent动态加载

基于图像的矿井巷道结构参数化建模的研究

一直以来，煤矿资源就给我国的煤炭行业带来了巨大的经济利益，这依赖于矿井勘探人员和施工人员的不懈努力。为了合理地去开发和利用现有的矿山资源，达到即能满足人类社会的消耗水

学位

基于图像矿井巷道结构参数化三维建模

TTCN-3测试管理的设计与实现

TTCN-3是欧洲通讯标准协会(ETSI)在原有标准基础上推出的一种新的测试描述语言,功能更为强大,应用范围更为广泛,且不再局限于一致性测试。TTCN-3测试平台的体系结构也与以往

学位

TTCN-3测试测试管理测试执行平台CORBA

基于计数的数据流频繁项挖掘算法研究

其他学术论文