数据挖掘中的分类与预测模型的研究

来源 :同济大学电子与信息工程学院 同济大学 | 被引量 : 0次 | 上传用户:yulong19841001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习的方法在数据挖掘领域有广泛的应用。 在当今的机器学习领域,人们经常采用多预测模型的方法以提高预测的准确性。所有这些多预测模 型方法可以归为两类:(1)专家方法 (2)集成方法。 聚类方法在空间数据挖掘中有广泛的应用。应用于空间数据挖掘的聚类方法包括划分方法、层次方 法、基于密度的方法等。本文根据应用于空间数据挖掘的聚类方法的基本要求,提出了一种基于分布的 聚类算法DBCSD。 本文改进了Adaboost.M2算法,给出了具有属性选取的适应性属性推进方法,并且将该方法应用于 空间推进中。快速k-NN分类器方法可以显著减少计算量。 数据约简对于大型分布式数据库的数据挖掘也是非常有用的。在当今的数据挖掘领域中,在分布式 环境中学习的工作一般有两种方式:一种是将所有数据移往一个中心以进行进一步处理;另外一种是对 各地的数据分别产生预测模型,然后通过标准的机器学习方法进行移动和结合。随着网络系统的出现以 及数据量不断增加,前一种方法太昂贵,后一种方法太不精确。缩小数据库的规模,降低其维数,同时 又不丢失可以抽取的信息,这样可以为更有效、更精确的集中学习加速数据转移。数据约简通常采用步 进采样技术,本文提出了一种采用动态规划技术来计算采样schedule的新方法。 目前的机器学习算法,一般都具有很高的计算复杂性,同时要求所有数据驻留主存,显然这对于大 多数实际的数据挖掘应用来说是不能接受的。所以在本文中,我们将探讨在大型以及物理上分布的数据 集上进行数据挖掘的方法。同时提出了在分布式环境中进行分类和预测的方法。 我们提出了一种基于聚类方法的对集成中分类器进行剪枝的新方法。为了对分类器进行剪枝,采用 分布分类器权重的方法。另外,我们设计了一种利用“最独立”分类器建立树的深度优先算法。该剪枝 方法表明,通过选择一个神经网络分类器的最优子集,我们有可能得到与整个集成接近甚至更好一点的 泛化效果。 一般来说,神经网络能够产生相当精确的模型。然后,这种模型都隐藏在“黑箱”中,虽然可以用 来预测,但是对理解模型中变量之间的关系没有帮助。遗传算法是一种有效的优化工具,可以用于规则 剪枝。本文提出了一个神经网络-模糊-遗传算法数据挖掘体系结构,它可以将发现的模式以可以理解的 方式表示出来。 关键词:数据挖掘,分类器,预测模型,机器学习,聚类,分布式环境,步进采样,神经网络,遗传算法,模糊推论系统。
其他文献
在电子商务迅猛发展的今天,商业社会的各部门需要信息共享与交换。一开始,人们试图通过各种不同的方式来交换信息,如文本文件、FTP等,但一直以来都没有一个标准的途径,直到可扩展
随着并行处理技术的不断发展,机群系统因其良好的性价比、卓越的可扩展性与可用性,逐渐成为当前高性能计算机领域的主流结构。在机群系统中,机间通信的性能是影响整个系统性
ARTs-OS的中断管理模型是在对各种实时系统实现技术的评估和系统的具体需求的分析基础上建立的.ARTs-OS的中断模型包括了中断模拟、中断的优先级调度、中断屏蔽、核外中断等
该文从理论和实践两个方面,对面向对象的中间件技术进行研究.论文首先从系统建模的角度论述了面向对象的重要概念和通用建模语言(UML),然后研究了三种主流的面向对象中间件技
近年来,电信网综合通信能力明显增强,运营商必须提供更多的多媒体业务才能吸引住用户,因此网络面临的压力越来越大。在这一发展背景下,基于软交换技术的下一代网络(NGN)技术应运
该论文中利用中文信息检索标准测试集,对信息检索系统及其算法进行了科学客观的评价,并对中文信息检索的最佳检索单元进行了详细的讨论和研究,在此基础上,重点讨论和研究了利
SAN使存储资源与服务器分离,可以提供100兆字节/秒的高性能数据管道和共享的集中管理的存储设备,使得数据的访问、备份和恢复不会大幅度降低网络性能,消除人们对网络带宽的顾虑。
随着Internet的飞速发展和广泛应用,大量的网络病毒已将Internet作为其一种主要的传播途径。网络病毒传播的方式很多,如通过访问网页、电子邮件以及FTP文件传输等等。为了使Web