P2P环境下数据挖掘算法与实验系统研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:dancheman001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据量的爆炸式增长导致传统的集中式数据挖掘技术在面对海量数据时无法获得足够的计算资源,与此同时,网络中存在的大量终端提供了很多潜在的计算环境,这引发了分布式数据挖掘技术的研究。如何利用网络中的计算资源完成数据挖掘的任务成为了当前的研究热点之一。Peer-to-Pee对等网络的参与者共享他们所拥有的一部分资源(处理能力、存储能力、网络连接能力、打印机等),这些共享资源通过网络提供服务和内容,能被其它对等节点(Peer)直接访问而无需经过中间实体。如何在P2P环境下的进行数据挖掘技术是本文要解决的问题。本论文的研究内容包括P2P网络中数据挖掘算法的模拟实验环境设计,适用于P2P网络的文本聚类算法和分类算法。主要做出了如下创新性工作:   ●提出了基于频繁词集的P2P网络中文本聚类算法,能够对网络中的文本数据进行聚类分析。该算法通过寻找文本集合中的最长频繁词集,找出文本中主题,再依据文本包含频繁词集的情况进行初始聚类,最终将文本划分到最相关的类簇中。这种方法避免了传统的数据聚类算法在处理高维文本数据时传输大量高维的中间结果,从而减少了聚类所需的通信量,节省了带宽,同时算法聚类结果能够不随网络规模增大而明显下降,更适用于大规模分布式网络中的聚类。   ●提出了一种基于超曲面的P2P环境下的分类算法。该算法首先利用超曲面分类算法在各节点处训练得到局部分类器,在分类阶段,各节点根据局部分类器对样本类别作出分类投票,并通过P2P环境下的最高票选举方法得到票数最高的类别作为数据的类标。该算法在局部分类器的训练阶段,采用高维划分集成方法处理高维数据,当网络中的数据是垂直分布时,即各节点处的数据属性不同时,局部分类器对数据的划分方式和网络中数据的分布方式一致,因此,该方法在网络中的数据是垂直划分的情况下能得到更好的效果,这更适合P2P环境下数据的存储方式。   ●为了在P2P环境下研究数据挖掘算法,设计实现了P2P环境下数据挖掘算法的模拟实验系统。该系统基于多主体环境平台,可以模拟出不同算法所得到的数据计算结果,统计网络中的信息传送量。用户仅需实现算法中各种网络节点在初始化和收到消息时的逻辑动作即可。系统为用户提供了发送、接受消息等接口,同时提供简便的图形界面便于用户操作。该系统是前面两个算法进行研究开发的实验平台。  
其他文献
随着Internet技术的不断发展和人们对地理信息系统(GIS)需求的不断增加,WebGIS已成为了当今GIS的研究热点和方向之一。WebGIS,即万维网地理信息系统,是基于Internet上的地理信息
互联网上的网络应用承载着信息社会最重要的数据,保证这些应用的稳定高效运行已经显得越来越重要,也由此产生对网络性能测量和监控非常迫切的需要。本文立足于当前分布式网络
串联质谱技术是蛋白质组学研究中的关键技术,也是大规模蛋白质序列和修饰鉴定的主要方法。常规鉴定方法(如序列库搜索)对串联质谱谱图的鉴定率还比较低,通常不到30%,而提高谱图的
随着IP网络的飞速发展,互联网的规模越来越庞大,结构也日益复杂,同时,网络上的应用越来越趋于多样化,大量的新型应用给网络环境带来了巨大冲击,网络监测的重要性在这样的背景下日益
无线传感器网络是一类新兴的网络,它主要通过分布在区域内的传感器节点来感知收集附近的相关数据,并将数据传输到汇聚节点。收集到的数据经过处理之后,最终传输给终端用户。
移动性管理是无线通信网络中实现用户快速接入网络并在通信过程中在不同小区间平滑切换的重要保证。随着以OFDM为核心的高速高带宽移动通信技术的发展,蜂窝小区尺寸越来越小,用
社会情感优化算法借鉴了社会学、社会心理学、组织行为学等有关人类群体的形成、进化及决策等方面的研究成果,考虑了情绪在人类决策行为中的作用以及外界信息对人类情绪的影
多智能体系统是一个复杂的动态系统,系统中问题求解空间巨大,是人工智能领域研究的一个热点问题。智能体系统的一个主要特征是能够适应未知环境,其中学习能力是智能体系统的
目前互联网业务是通信服务市场最大的利润增长点,企业间竞争日益激烈,而服务质量将成为通信企业取胜的关键。由此,为了满足不同通信企业的用户跨网访问的需求以及各个通信企
随着各种无线接入技术的日益成熟以及智能终端的迅猛发展,移动互联网已经成为未来互联网络的一个发展趋势。现行的路由结构在节点移动性支持方面存在很大的局限性,移动管理是互