论文部分内容阅读
随着信息时代的到来和计算机网络技术的飞速发展,在分布式环境下,如何进行有效的数据挖掘成为信息科学研究领域一个新的课题。关联规则是数据挖掘研究领域的一个重要问题,目前所面临的最大挑战是计算效率和内存问题,解决的途径之一是开发高效的分布式算法。因此本文主要从分布式的角度出发,针对关联规则的理论和方法进行了深入研究。 本论文主要研究以下三个问题 ●数据量很大,不能一次载入内存。 ●数据的安全性和隐私性。很多时候客户只愿意提供从数据中学习的结果而不是数据本身的细节。 ●数据是分布式存放的。 分布式数据挖掘的研究尚处于起步阶段,许多问题还有待于解决。其中最重要的两个问题是分布式数据挖掘系统的结构和挖掘算法。 本论文在这两个方面进行了一些有意义的探索: 先提出了一种分布式数据挖掘系统模型,用来实现大容量的数据在分布式存放情况下的数据挖掘。因为该系统模型只传送数据挖掘的中间结果,所以大大减少了网络的数据传输量,并加强了数据的安全和保密性。同时由于该系统模型采用CORBA接口编程技术,使得整个系统模型不依赖于编程语言、计算平台等。 然后在这个原型系统模型的基础上,对分布式数据挖掘算法提出了一些新的思想和好的实现方法。本论文中,主要考虑关联规则挖掘算法,从两个不同的角度从理论上探讨了分布式或并行数据挖掘:(a)由规则到规则:先由各个独立的站点生成各自的关联规则,再在这些关联规则的基础上生成总的关联规则:(b)由数据到规则:由各个独立的站点交换各自的中间结果来生成总的关联规则。然后针对第二种方法,结合安全向量计算协议,提出了一种新的保持隐私的分布式关联规则挖掘算法。 最后,本论文给出了结论,并概述了今后进一步研究的方向。