基于时间戳数据库的分布式多层时态关联规则挖掘

来源 :燕山大学 | 被引量 : 0次 | 上传用户:tuantuan731
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对国内外数据挖掘研究情况分析可知,以往的关联规则算法在稠密数据集上阈值很高的时候将耗尽内存空间;单纯的关联规则挖掘忽略了事务的时间特性;而低概念层的数据项之间很难找出有价值的时态关联规则;随网络的飞速发展,数据一般都是垂直分布在分布式系统的各个节点上,因此在合适的时态模型上进行分布式多层时态关联规则挖掘是十分必要的.该文设计了一种伺机摄影的算法,该算法通过对数据库投影,生成频繁项集树来解决关联规则挖掘中寻找完全频繁项集的问题.伺机投影算法是一种节省内存空间的,无论对稠密数据库还是稀疏数据库,无论在高阈值还是低阈值情况下都有效的频繁项集挖掘算法.该文给出了分布式时间戳数据库上多层时态关联规则挖掘的问题定义,提出了在时间戳数据库上挖掘时态关联规则问题的方法,设计了分布式多层关联规则挖掘方法及其核心算法DMARM,设计并实现了对分布式系统上时间戳数据库的时间戳域进行聚类的D-CURE算法,并以上述研究结果为基础,提出了解决分布式时间戳数据库上多层时态关联规则挖掘的方法及其核心算法DMTARM.该文使用Visual C++实现了目前成熟的集中式数据聚类CURE算法和自行设计的D-CURE算法,分别对相同的数据集即美国UCI机器学习网站上提供的糖尿病数据集进行聚类,通过对二者聚类的结果对比分析发现,D-CURE算法在解决以关联规则挖掘为目的的分布式事务数据库上连续属性离散化问题上是有效的.DMARM和DMTARM算法都是通过对集合的"或"或"与"运算来求解全局频繁模式,相比其他关联规则挖掘算法,减少了数据库的扫描次数,二者都通过使用轮询站点来交换信息,优化了通信模式.二者的区别在于DMTARM比DMARM增加了全局频繁模式生存时间的计算步骤,从而解决了挖掘时态关联规则的问题.该文提出的解决基于时间戳数据库的分布式多层时态关联规则挖掘问题的方法,具有一定的实际应用价值.
其他文献
在当前计算机网络技术发展水平的基础之上,企业对应用计算机进行商务活动提出了新的标准,一方面应考虑到电子商务平台的先进性,另一方面,要使企业现有的商务工作系统能较平滑地嵌
该文引入了CRM SA,对北京公交抢修救援服务进行业务流程重组,设计抢修救援服务自动化的业务流程.CRM是一种以客户为中心的管理系统,而SA作为CRM的主要内容,其目标是以信息技
云计算提供了巨大的数据存储容量和高效的数据处理能力,从而减轻了数据用户的负担,为互联网上的客户提供了便利。它可以将数据库和应用软件从数据拥有者转移到云端,从而在云端管
特征造型技术是面向制造全过程的,是CAD发展的一个重要里程碑,它使CAD/CAPP/CAM的真正集成化成为可能,为解决产品从设计到制造的一系列问题奠定了理论和技术基础。建立基于特征
文本自动校对是一项无论在实际应用还是在科学研究中都十分重要的工作.该文全面调研了现阶段国内外文本自动校对研究的现状.国外在英文自动校对方面的研究较为成熟,目前已经
作者在深入细致地分析、比较了当前常见的入侵检测系统的设计原理、设计思路、实现方法及其性能优缺点后,提出了一种新型的基于CVE的实时入侵检测系统,阐述了该解决方案中的设
近年来,互联网在国际上得到了长足的发展,但网络本身的安全性问题也日显突出,网络安全的一个主要威胁就是通过网络对信息系统的入侵。与此同时,无论从规模与方法上,入侵手段和技术
该文所介绍的人群流量统计系统采用基于人工神经网络(BP神经网络)的模式识别方法,以动态人群序列为处理对象,对动态人群进行实时识别和统计.该系统综合运用了各种图像处理技
该文首先对软件项目计划及其控制的过程和基本内容;软件项目计划制定、预测和控制理论方法;规模估算方法及其在软件项目计划中的作用等方面进行了分析与研究.该文还对软件过
该文阐述了一个基于知识的不确定推理系统KURS.该系统完全在一阶逻辑推理系统的框架内构建和实现,基于人类解决不确定问题的一般方法-利用知识和证据进行推理,能够得出所有命