频繁模式增量挖掘和交互挖掘的理论与方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:xrp880823
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从大型数据库中挖掘频繁模式是许多数据挖掘问题中的核心任务,并有广泛的应用.但是已有的大多数方法都假设数据库是静态的.其实在越来越多的应用领域,数据库都处在有规律的更新中.在这些动态环境中,增量维护以前发现的模式就成为本质问题.另外,在现实世界的应用中,由于缺乏领域知识,用户最初很难确定对阈值的需求,需要在不同阈值下不断调整挖掘结果.而动态数据和交互控制的环境一般都需要快速响应,急需当数据库改变时的高效增量挖掘算法和阈值调整时的高效交互挖掘算法.(1)系统地提出了基于划分的增量挖掘的理论和方法:该研究从分析频繁模式挖掘与增量挖掘问题的格搜索空间入手,提出基于前缀等价关系划分格空间的增量挖掘的方法,以及基于该划分的加细——极大完全子图的划分——的增量挖掘算法.(2)提出了模式索引树和基于模式索引树的增量挖掘机制:该研究提出了一种新的简洁的项集索引结构——模式索引树,和利用这种索引结构的增量挖掘算法.这种增量挖掘方法,完全不依赖于先前采用的挖掘算法.与挖掘问题中的项集索引——哈希树相比,模式索引树简洁的结构极大提升了项集的空间共享程度,为降低增量挖掘的空间和时间代价奠定了基础.(3)提出了基于频繁模式增长的交互挖掘方法:该研究提出两种基于频繁模式增长的交互挖掘方法,一种基于频繁模式树,另一种基于频繁模式列表.深入的性能分析表明该研究提出的频繁模式增量挖掘和交互挖掘方法是高效的、可伸缩的,与该研究领域的同类算法相比,具有明显的性能优势.这些研究成果已在我们的数据挖掘工具CyberMiner中得到使用和验证,取得了令人满意的结果.
其他文献
搜索引擎是目前最主要的Web信息检索工具,然而搜索引擎的效果还不能令人满意。因此,在搜索结果返回用户前需要有一个检索后处理过程,即主题精选过程。当前很多Web检索系统能以页
随着互联网信息技术的发展,越来越多的社交网络出现在人们的视野中。互联网用户的行为也从单纯地浏览网页向与网页或者其他用户的交互转变。社交网站中形成了很多“圈子”。
该论文主要讨论计算几何中若干问题的算法和实际应用.这些问题包括最短路径问题、集装箱装载问题和几何数据压缩问题.首先,该文在绪论中介绍了计算几何的主要内容和应用领域,
本文对工作流技术的起源和发展现状作了概述,分析了企业采用工作流管理系统的好处和现有工作流管理系统的不足。经深入研究本文认为:组织的管理、业务与活动,经过规范、归纳和抽
在储层地质随机建模结果可视化中,多边形是几何形体最常用的图形表现方式.对于图形的显示、消隐、边界处理、裁剪等问题的处理中,常常用到了判断任意点是否为多边形的内点的
该文主要从关守的代理功能;用户的认证、授权、计费;关守的服务控制三个方面对关守进行了功能扩展.论文首先介绍了VoIP与H.323协议簇;用户的认证、授权、计费;关守的服务控制
移动通信网络的经营者移动运营商凭借其所拥有的数目庞大的移动用户群毫无疑问在移动电子商务的开拓中占有主导地位.短消息业务的成功已经证明:移动运营商通过提供语音服务产
该文首先介绍了MPLS技术以及实施流量工程的目标,论述了如何利用MPLS实施流量工程及其优点,在这基础上设计了支持流量工程的MPLS路由器软件体系结构,论述了路由器的构成组件
近年来随着移动终端的不断普及,人们对通讯录管理软件的使用越来越频繁。移动终端上系统通讯录的联系人搜索模块与拨号模块是分离的,用户只能先使用全键盘输入联系人姓名再进
该论文以环北部湾经济区交通、旅游多媒体信息在高性能宽带信息示范网上的应用为典型实例.依托国家863信息技术领域重大专项——高性能宽带信息示范网课题的研究,在专家们的