论文部分内容阅读
数据量的爆炸式增长导致传统的集中式数据挖掘技术在面对海量数据时无法获得足够的计算资源,与此同时,网络中存在的大量终端提供了很多潜在的计算环境,这引发了分布式数据挖掘技术的研究。如何利用网络中的计算资源完成数据挖掘的任务成为了当前的研究热点之一。Peer-to-Pee对等网络的参与者共享他们所拥有的一部分资源(处理能力、存储能力、网络连接能力、打印机等),这些共享资源通过网络提供服务和内容,能被其它对等节点(Peer)直接访问而无需经过中间实体。如何在P2P环境下的进行数据挖掘技术是本文要解决的问题。本论文的研究内容包括P2P网络中数据挖掘算法的模拟实验环境设计,适用于P2P网络的文本聚类算法和分类算法。主要做出了如下创新性工作:
●提出了基于频繁词集的P2P网络中文本聚类算法,能够对网络中的文本数据进行聚类分析。该算法通过寻找文本集合中的最长频繁词集,找出文本中主题,再依据文本包含频繁词集的情况进行初始聚类,最终将文本划分到最相关的类簇中。这种方法避免了传统的数据聚类算法在处理高维文本数据时传输大量高维的中间结果,从而减少了聚类所需的通信量,节省了带宽,同时算法聚类结果能够不随网络规模增大而明显下降,更适用于大规模分布式网络中的聚类。
●提出了一种基于超曲面的P2P环境下的分类算法。该算法首先利用超曲面分类算法在各节点处训练得到局部分类器,在分类阶段,各节点根据局部分类器对样本类别作出分类投票,并通过P2P环境下的最高票选举方法得到票数最高的类别作为数据的类标。该算法在局部分类器的训练阶段,采用高维划分集成方法处理高维数据,当网络中的数据是垂直分布时,即各节点处的数据属性不同时,局部分类器对数据的划分方式和网络中数据的分布方式一致,因此,该方法在网络中的数据是垂直划分的情况下能得到更好的效果,这更适合P2P环境下数据的存储方式。
●为了在P2P环境下研究数据挖掘算法,设计实现了P2P环境下数据挖掘算法的模拟实验系统。该系统基于多主体环境平台,可以模拟出不同算法所得到的数据计算结果,统计网络中的信息传送量。用户仅需实现算法中各种网络节点在初始化和收到消息时的逻辑动作即可。系统为用户提供了发送、接受消息等接口,同时提供简便的图形界面便于用户操作。该系统是前面两个算法进行研究开发的实验平台。