基于元素增长搜索策略的频繁闭模式挖掘算法的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:liuyong402
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的飞速发展以及人们获取数据手段的多样化,人类所拥有的数据急剧增加,如何从规模越来越大的数据库中提取出人们感兴趣的信息以及知识,即数据挖掘技术早已成为计算机科学的热门研究领域。关联规则挖掘是数据挖掘研究领域中的重要分支,用于挖掘反映数据库中一组数据项之间的某种潜在关系的规则,具有重要的研究价值以及应用价值。频繁模式挖掘技术是关联规则挖掘技术中的关键步骤,其效率对整个关联规则挖掘的效率起着决定作用。以往的研究工作主要集中在基于深度优先搜索策略的挖掘算法的研究上,而对其它搜索策略下的挖掘算法以及频繁模式存储结构的研究很有限。针对以上的研究现状,本文首先提出了两种新的存储频繁模式的数据结构:后缀树和有序图,并且提出了在后缀树和有序图上进行集合的查找、添加以及删除操作的算法,经实验证明,这两种存储的结构的性能优于以往的频繁模式存储结构。本文还提出了一个新的挖掘频繁闭模式的算法:EISAM算法。EISAM算法没有采用传统的深度优先或广度优先的搜索策略,而是提出了一种新的搜索策略:元素增长搜索策略,从而使算法具有增量维护的特性。为了进一步提高算法的性能,还提出了高效的削减策略以及预处理优化技术,使算法具有更加广泛的适用性。实验结果表明,EISAM算法的性能优于以往的频繁闭模式挖掘算法。本文首先对相关背景知识以及以往的研究工作进行简要介绍,然后提出后缀树和有序图的存储结构以及有关操作的算法,接着提出了基于元素增长搜索策略的EISAM算法,最后通过实验测试了提出的存储结构以及算法的性能。
其他文献
随着信息技术和办公自动化的迅速发展,工作流技术在处理复杂业务流程、海量数据动态管理方面发挥着越来越大的作用,显著地提高了业务流程处理的性能和效率。为了保障工作流系统
随着互联网技术和多媒体技术的飞速发展,数字媒体信息呈现出以几何级数增长的态势。海量的数字媒体为人们的娱乐、教育和商业带来便利的同时,也为视觉信息处理技术提出了新的挑
ERP(Enterprise Resource Plan,企业资源管理)是上个世纪传入我国的国外先进管理思想,经历近半个世纪的发展,目前已经成为现代企业管理中不可或缺的有力工具,是企业现代化和信息
数字水印技术是知识产权保护和安全隐秘通信的重要手段之一。视频水印是数字水印技术的重要分支,具有不同于其他载体类型水印的特点。由于数字视频在多媒体产品中占有较大的
本论文对入侵检测研究现状进行了总结,对入侵检测的主要技术、方法、体系结构进行了深入的分析,提出了入侵检测技术面临的问题和研究发展趋势,并对入侵检测技术的主要技术难
数据流自然地出现于很多监控应用中,如网络和金融服务,而这些数据流应用限制了标准关系数据库技术的适用性。许多数据流源在量上是倾向于爆发性的,而CPU处理能力不足和内存有
在现实生活中,数据发布者,如Facebook,往往会将社会网络发布出来。通过数据挖掘等技术手段,研究人员能够发掘隐藏于其中的价值规律。与此同时,社会网络所包含的用户隐私信息
近年来P2P研究升温,而资源定位是P2P网络研究中的热点问题。目前,最受研究者们关注的是基于DHT(分布式哈希表)的结构化定位模型。DHT路由算法使用分布式哈希函数进行资源定位,快
在许多实际工程和科学研究中,混沌现象已经成为普遍存在,因而对混沌的研究显得越来越重要。本文采用理论推导和数值模拟相结合的方法对混沌系统的同步方法做了研究,取得了如下成
存储网格是网格技术发展的一个重要组成部分。它将分布在网络中的计算机集合起来,充分利用各个计算机的计算资源以整合出一个强大的计算系统一样,它将网络中的存储系统进行了整