论文部分内容阅读
数据挖掘,也称之为数据库中知识发现是一个可以从海量数据中智能地和自动地抽取一些有用的、可信的、有效的和可以理解的模式的过程。分类是数据挖掘的重要内容之一。目前,分类已广泛应用于许多领域,如医疗诊断、天气预测、信用证实、顾客区分、欺诈甄别。 现已有多种分类的方法,其中决策树分类法在海量数据环境中应用最为广泛。其原因如下;1、决策树分类的直观的表示方法较容易转化为标准的数据库查询。2、决策树分类归纳的方法行之有效,尤其适合大型数据集。3、决策树在分类过程中,除了数据集中已包括的信息外,不再需要额外的信息。4、决策树分类模型的精确度较高。 数据库的急剧膨胀使得挖掘算法的可伸缩性变得日益重要,传统的挖掘算法处理的数据量较少。现代的数据库已大到不能将其数据全部调入内存。从磁盘读取数据比挖掘算法在内存中处理数据慢得多。因此挖掘算法必须是可伸缩的,否则挖掘算法的实用性会受到限制。一个算法是可伸缩的是指在一定内存的情况下,算法的运行时间随输入的记录数的增加而线性增加。 各种数据库可使数据挖掘更加有效、方便。但在关系数据库和OLAP数据仓库上建立挖掘模型并非易事,开发需要制定挖掘算法,大量的工作需要开发者完成。OLE DB for Data Mining(OLE DB for DM)是OLE DB和OLE DB for OLAP自然进化的结果。Microsoft’s OLE DB for DM规范使数据挖掘工作只通过一个API完成。其目的是减轻在数据库上开发挖掘应用程序的负担。由于使用OLE DB for DM没有涉及数据库的内部细节,因此数据挖掘可方便地运行在多种数据库系统上。 本文首先研究了评估分类模型的方法。在此基础上着重研究了决策树分类方法,并对决策树算法的可伸缩性问题进行了具体分析,最后给出了基于OLE DB for DM开发决策树分类预测应用程序。