论文部分内容阅读
机器学习的方法在数据挖掘领域有广泛的应用。
在当今的机器学习领域,人们经常采用多预测模型的方法以提高预测的准确性。所有这些多预测模
型方法可以归为两类:(1)专家方法 (2)集成方法。
聚类方法在空间数据挖掘中有广泛的应用。应用于空间数据挖掘的聚类方法包括划分方法、层次方
法、基于密度的方法等。本文根据应用于空间数据挖掘的聚类方法的基本要求,提出了一种基于分布的
聚类算法DBCSD。
本文改进了Adaboost.M2算法,给出了具有属性选取的适应性属性推进方法,并且将该方法应用于
空间推进中。快速k-NN分类器方法可以显著减少计算量。
数据约简对于大型分布式数据库的数据挖掘也是非常有用的。在当今的数据挖掘领域中,在分布式
环境中学习的工作一般有两种方式:一种是将所有数据移往一个中心以进行进一步处理;另外一种是对
各地的数据分别产生预测模型,然后通过标准的机器学习方法进行移动和结合。随着网络系统的出现以
及数据量不断增加,前一种方法太昂贵,后一种方法太不精确。缩小数据库的规模,降低其维数,同时
又不丢失可以抽取的信息,这样可以为更有效、更精确的集中学习加速数据转移。数据约简通常采用步
进采样技术,本文提出了一种采用动态规划技术来计算采样schedule的新方法。
目前的机器学习算法,一般都具有很高的计算复杂性,同时要求所有数据驻留主存,显然这对于大
多数实际的数据挖掘应用来说是不能接受的。所以在本文中,我们将探讨在大型以及物理上分布的数据
集上进行数据挖掘的方法。同时提出了在分布式环境中进行分类和预测的方法。
我们提出了一种基于聚类方法的对集成中分类器进行剪枝的新方法。为了对分类器进行剪枝,采用
分布分类器权重的方法。另外,我们设计了一种利用“最独立”分类器建立树的深度优先算法。该剪枝
方法表明,通过选择一个神经网络分类器的最优子集,我们有可能得到与整个集成接近甚至更好一点的
泛化效果。
一般来说,神经网络能够产生相当精确的模型。然后,这种模型都隐藏在“黑箱”中,虽然可以用
来预测,但是对理解模型中变量之间的关系没有帮助。遗传算法是一种有效的优化工具,可以用于规则
剪枝。本文提出了一个神经网络-模糊-遗传算法数据挖掘体系结构,它可以将发现的模式以可以理解的
方式表示出来。
关键词:数据挖掘,分类器,预测模型,机器学习,聚类,分布式环境,步进采样,神经网络,遗传算法,模糊推论系统。