论文部分内容阅读
对国内外数据挖掘研究情况分析可知,以往的关联规则算法在稠密数据集上阈值很高的时候将耗尽内存空间;单纯的关联规则挖掘忽略了事务的时间特性;而低概念层的数据项之间很难找出有价值的时态关联规则;随网络的飞速发展,数据一般都是垂直分布在分布式系统的各个节点上,因此在合适的时态模型上进行分布式多层时态关联规则挖掘是十分必要的.该文设计了一种伺机摄影的算法,该算法通过对数据库投影,生成频繁项集树来解决关联规则挖掘中寻找完全频繁项集的问题.伺机投影算法是一种节省内存空间的,无论对稠密数据库还是稀疏数据库,无论在高阈值还是低阈值情况下都有效的频繁项集挖掘算法.该文给出了分布式时间戳数据库上多层时态关联规则挖掘的问题定义,提出了在时间戳数据库上挖掘时态关联规则问题的方法,设计了分布式多层关联规则挖掘方法及其核心算法DMARM,设计并实现了对分布式系统上时间戳数据库的时间戳域进行聚类的D-CURE算法,并以上述研究结果为基础,提出了解决分布式时间戳数据库上多层时态关联规则挖掘的方法及其核心算法DMTARM.该文使用Visual C++实现了目前成熟的集中式数据聚类CURE算法和自行设计的D-CURE算法,分别对相同的数据集即美国UCI机器学习网站上提供的糖尿病数据集进行聚类,通过对二者聚类的结果对比分析发现,D-CURE算法在解决以关联规则挖掘为目的的分布式事务数据库上连续属性离散化问题上是有效的.DMARM和DMTARM算法都是通过对集合的"或"或"与"运算来求解全局频繁模式,相比其他关联规则挖掘算法,减少了数据库的扫描次数,二者都通过使用轮询站点来交换信息,优化了通信模式.二者的区别在于DMTARM比DMARM增加了全局频繁模式生存时间的计算步骤,从而解决了挖掘时态关联规则的问题.该文提出的解决基于时间戳数据库的分布式多层时态关联规则挖掘问题的方法,具有一定的实际应用价值.