基于序列模式的频繁自由树挖掘算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：ZYONGF

【摘要】

：

数据挖掘(Data Mining, DM)是从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在价值的信息或者模式。在数据挖掘概念提出以来十几年间,数据挖掘技术得到日益的

【作者】

：

孙圣军

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2008年期

【关键词】

：

数据挖掘自由树频繁子树频繁序列 TDB

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘(Data Mining, DM)是从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在价值的信息或者模式。在数据挖掘概念提出以来十几年间,数据挖掘技术得到日益的重视和广泛的应用、研究。因此,作为数据挖掘重要分支的频繁项目集和关联规则的挖掘,更是引起了广泛的关注且得到的较大的研究、发展。随着数据挖掘应用领域的不断扩大和涉及到的数据种类的增多,特别是网络技术的发展,面向传统领域的结构化关系数据库和事务数据库的挖掘技术,不能满足非传统领域的数据挖掘技术的要求,比如:半结构化数据类型和非结构化数据类型。而这些数据类型在生物信息学、Web挖掘、化合物结构分析等领域有着广泛的应用。本文对面向非结构化数据——树和无环图的挖掘技术进行了深入的研究和分析。主要工作包括:首先,对数据挖掘技术的相关背景知识进行深入的介绍和分析。其中,重点阐述数据挖掘技术的一个重要分支——关联规则挖掘。综述关联规则挖掘的不同种类,并对其中的频繁项集挖掘做了全面深入的介绍。其次,对面向树结构的挖掘技术主要算法作了归类,并比较两大类算法的效率,得出结论深度优先的算法效率较高。这样为本文的研究方向找准了的切入点,在后面作者的算法采用的是面向深度优先,垂直搜索的方式。然后,分析当前采用深度优先算法中效率较高的两个经典算法,TreeMiner和FreeTreeMiner,总结和分析它们的优缺点,并为作者后续算法所用。然后,对面向无环图(自由树)类型的算法作了规划,共分4个步骤:(1)寻找自由树的中心点,对此,作者提出高效的LWA(Longest Way Algorithm)算法,并证明该算法的正确性和高效性。(2)对有根无序树作规范化,作者在这里提出规范化算法Canonicalization,并分析此算法的时间复杂度,证明其时间复杂度与当前效率最高的同类算法相当。(3)挖掘频繁序列模式,作者把“同分异构”的思想引入频繁序列挖掘,较大幅度的提高算法的速度效率。(4)引入索引的方法挖掘具有相同序列的不同结构的频繁子树。最后,本文用实验比较了算法SFTM(SequenceFreeTreeMiner)和类似的Chopper算法,FreeTreeMiner算法,验证了SFTM算法的高效性和正确性。

其他文献

基于Jini服务的分布式智能网络的研究及应用

随着网络的普及和网络应用的扩大,互连设备和软件组件的使用量急剧增加,网络使用与维护的复杂性也越来越大。人们越来越希望有一种网络,能够让设备和软件组件在接入时,能够无

学位

分布式体系结构服务查找租借远程方法调用

面向SaaS服务的发布订阅系统的研究与实现

随着云计算和SaaS服务模式的兴起，SaaS服务商需要对大量的服务进行发布，而订购用户也需要根据自己的兴趣进行大量的订购。订购用户可能会经常性的上线、离线以及新加入系统的订

学位

软件服务模式发布订阅系统匹配算法事件热门度

多卷混沌发生器的设计、电路实现与应用

混沌信号是由确定性系统产生的非周期的、类似随机的、在一定范围内无限填充的信号。混沌系统，即能产生混沌信号的系统，具有连续宽频谱、复杂的不可预测的动力学行为、敏感的依

学位

多卷混沌发生器生理学模型时滞微分方程多卷混沌吸引子电路实现自适应同步

eMule系统安全管理技术

近年来，P2P技术尤其是P2P文件共享技术取得了令人瞩目的发展。但是，P2P文件共享技术给人们带来便利的同时，也带来了诸多问题。最新统计表明，P2P流量占据了整个互联网流量的60％以上

学位

P2P技术eMule系统安全管理技术网络安全

关联规则在物流网站设计与实现上的应用

数据挖掘（Data Mining）作为数据库研究领域中的热点,正受到越来越多的关注,其任务是从大量数据中发现有用的数据,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识

学位

数据挖掘关联规则Apriori算法ISS-DM算法ISS-DM-1算法

基于J2EE架构的个性化元搜索引擎的研究与设计

随着Internet的飞速发展,人们越来越依靠网络查找自己所需要的信息,搜索引擎增强了人们定位和收集信息的能力,在一定程度上解决了“信息过载”和“资源迷向”的问题。但是一

学位

元搜索引擎个性化用户兴趣模型成员搜索引擎J2EE架构

胱抑素C与动脉粥样硬化及脑梗死关系的研究进展

现阶段,中国社会老龄化和城市化进程加速,脑血管疾病已成为严重影响居民健康的疾病之一,探讨其相关性因素,对于疾病的预防、诊断、治疗、预后非常有价值.脑梗死的病理学基础

期刊

Cys C动脉粥样硬化脑梗死综述

基于序列模式的频繁自由树挖掘算法研究

其他学术论文