数据挖掘中决策树分类算法的研究

被引量 : 0次 | 上传用户:Rainbow820710
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘,也称之为数据库中知识发现是一个可以从海量数据中智能地和自动地抽取一些有用的、可信的、有效的和可以理解的模式的过程。分类是数据挖掘的重要内容之一。目前,分类已广泛应用于许多领域,如医疗诊断、天气预测、信用证实、顾客区分、欺诈甄别。 现已有多种分类的方法,其中决策树分类法在海量数据环境中应用最为广泛。其原因如下;1、决策树分类的直观的表示方法较容易转化为标准的数据库查询。2、决策树分类归纳的方法行之有效,尤其适合大型数据集。3、决策树在分类过程中,除了数据集中已包括的信息外,不再需要额外的信息。4、决策树分类模型的精确度较高。 数据库的急剧膨胀使得挖掘算法的可伸缩性变得日益重要,传统的挖掘算法处理的数据量较少。现代的数据库已大到不能将其数据全部调入内存。从磁盘读取数据比挖掘算法在内存中处理数据慢得多。因此挖掘算法必须是可伸缩的,否则挖掘算法的实用性会受到限制。一个算法是可伸缩的是指在一定内存的情况下,算法的运行时间随输入的记录数的增加而线性增加。 各种数据库可使数据挖掘更加有效、方便。但在关系数据库和OLAP数据仓库上建立挖掘模型并非易事,开发需要制定挖掘算法,大量的工作需要开发者完成。OLE DB for Data Mining(OLE DB for DM)是OLE DB和OLE DB for OLAP自然进化的结果。Microsoft’s OLE DB for DM规范使数据挖掘工作只通过一个API完成。其目的是减轻在数据库上开发挖掘应用程序的负担。由于使用OLE DB for DM没有涉及数据库的内部细节,因此数据挖掘可方便地运行在多种数据库系统上。 本文首先研究了评估分类模型的方法。在此基础上着重研究了决策树分类方法,并对决策树算法的可伸缩性问题进行了具体分析,最后给出了基于OLE DB for DM开发决策树分类预测应用程序。
其他文献
知识产权的担保融资问题是法学界一个较新的课题。本文较为系统地对知识产权担保融资的诸多问题进行了研究,阐释了其在我国经济发展中的积极作用、担保方式、担保的标的物、担
主要阐述了电厂集控运行工作内容,并对发电厂汽轮机运行现状和存在的问题进行分析,主要包括蒸汽配汽方式、汽轮机启停方式以及汽轮机运行能力等,最后提出了电厂汽轮机高压调
随着我国社会主义市场经济体制的建立与完善,宏观调控对经济运行的作用越来越重要。宏观调控法的研究也越来越受到法学界的重视,但作为宏观调控法基本范畴的宏观调控权还未引起
轮胎的驱动与制动特性是影响汽车的制动安全性与行驶稳定性、汽车行驶特性以及传动系统扭转振动等的重要特性。近年来,人们对轮胎的驱动与制动特性做了大量理论研究工作;但是
在影视作品中,广角镜头的参与是不可或缺的。然而,正是因为大规模的应用,令广角镜头的造型功能出现了概念化、程式化的倾向。因此,正确而有效地运用广角镜头,充分发挥它的造
本文主要分析了目前软件企业在开发项目中存在的风险,提出了这些风险存在的根本原因和目前软件开发风险管理中存在的问题。与此同时,笔者对软件风险管理研究领域中的代表人物Bo
目的分析依那普利联合氨氯地平治疗原发性高血压的临床效果。方法将82例原发性高血压患者根据随机数字表法分为观察组和对照组。观察组41例患者给予依那普利联合氨氯地平治疗
混炼的目的是要把配合剂材料充分混入到橡胶中去,使配合药品完全吸附、附着在橡胶之上和粒子中去,并且分布均匀一致,提高混炼胶质量的均一性。低温连续混炼技术和设备简介以
波动率是金融理论的核心,其代表的含义即为风险。在金融计量经济学和时间序列分析领域中,已经建立了一类的数量模型来分析金融市场上的波动特征,如著名的ARCH类模型。但随着科技