论文部分内容阅读
数据挖掘,也称之为数据库中知识发现是一个可以从海量数据中智能地和自动地抽取一些有用的、可信的、有效的和可以理解的模式的过程。分类是数据挖掘的重要研究内容之一。目前,分类己广泛应用于医疗诊断、天气预测、信用证实、顾客区分、欺诈甄别等许多领域。决策树是一种常用的分类模型,与其他分类模型相比,决策树简洁易懂,容易转换成规则,而且具有与其他分类模型同样的,甚至是更好的分类准确性。粗糙集理论是由波兰数学家 Z.Pawlak 教授提出的一种处理模糊,不精确,不完整和不确定数据的有效工具,现已经过了 20 多年的发展,在理论和应用上都取得了丰硕的成果。本文主要研究了基于粗糙集理论的决策树生成和剪枝方法,具体如下:1)对决策树生成方法进行研究。Pawlak 粗糙集理论由于其分类过于精确的特性而无法很好的处理含有噪声的数据,基于 Pawlak 粗糙集理论构造的决策树也因此而不能很好的对噪声进行抑制,易产生过匹配训练数据的缺陷,从而不能很好的指导决策。本文在变精度粗集理论的基础上,对原有的基于 Pawlak 粗糙集理论的决策树生成方法进行了改进,提出基于变精度粗糙集理论的决策树生成方法。变精度粗糙集理论在将等价类划归近似区间时允许一定程度的误差存在,这使得生成方法可以很好的抑制噪声数据,因此这种方法相对于前者来说,具有一定的优越性。2)对决策树剪枝方法进行研究。为增强决策树的泛化能力,需要对生成的决策树进行剪枝。根据 Vapnik 结构风险最小化的理论,一个性能较好的模型应在模型的复杂度与模型的正确率之间取一折中。基于这一理论的指导,本文提出了一种基于粗糙集理论的决策树剪枝算法。新算法同时考虑了树的复杂度和树的分类精度,力求在二者之间达到平衡,即在保证一定正确率的前提下,得到尽可能简单的决策树。本文提出两个概念:深度拟合率和错误率,并将这两个概念作为剪枝的标准。