基于粗糙集理论的决策树生成与剪枝方法

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:ujrcji54937
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘,也称之为数据库中知识发现是一个可以从海量数据中智能地和自动地抽取一些有用的、可信的、有效的和可以理解的模式的过程。分类是数据挖掘的重要研究内容之一。目前,分类己广泛应用于医疗诊断、天气预测、信用证实、顾客区分、欺诈甄别等许多领域。决策树是一种常用的分类模型,与其他分类模型相比,决策树简洁易懂,容易转换成规则,而且具有与其他分类模型同样的,甚至是更好的分类准确性。粗糙集理论是由波兰数学家 Z.Pawlak 教授提出的一种处理模糊,不精确,不完整和不确定数据的有效工具,现已经过了 20 多年的发展,在理论和应用上都取得了丰硕的成果。本文主要研究了基于粗糙集理论的决策树生成和剪枝方法,具体如下:1)对决策树生成方法进行研究。Pawlak 粗糙集理论由于其分类过于精确的特性而无法很好的处理含有噪声的数据,基于 Pawlak 粗糙集理论构造的决策树也因此而不能很好的对噪声进行抑制,易产生过匹配训练数据的缺陷,从而不能很好的指导决策。本文在变精度粗集理论的基础上,对原有的基于 Pawlak 粗糙集理论的决策树生成方法进行了改进,提出基于变精度粗糙集理论的决策树生成方法。变精度粗糙集理论在将等价类划归近似区间时允许一定程度的误差存在,这使得生成方法可以很好的抑制噪声数据,因此这种方法相对于前者来说,具有一定的优越性。2)对决策树剪枝方法进行研究。为增强决策树的泛化能力,需要对生成的决策树进行剪枝。根据 Vapnik 结构风险最小化的理论,一个性能较好的模型应在模型的复杂度与模型的正确率之间取一折中。基于这一理论的指导,本文提出了一种基于粗糙集理论的决策树剪枝算法。新算法同时考虑了树的复杂度和树的分类精度,力求在二者之间达到平衡,即在保证一定正确率的前提下,得到尽可能简单的决策树。本文提出两个概念:深度拟合率和错误率,并将这两个概念作为剪枝的标准。
其他文献
异型花柱是一种遗传控制的花柱高度多态现象,具有交互式雌雄异位特征,是植物有效地避免自交、促进精确异交传粉的一种机制,主要包括二型花柱与三型花柱。功能性雌雄异株是二型花
接入网技术在最近几年发展迅速,尤其是宽带接入的发展。基于不同的接入网环境出现了多种宽带接入技术,ADSL是在传统电信网络中通过电话线提供上下行非对称的数据传输的技术,是应
TCR在抗原识别和细胞免疫中至关重要,关于TCR的研究在过去很长的一段时间层出不穷。本实验室发现了一种新型的TCR-Vδ/VβTCR,本文利用Alanine Scanning对这种TCR与p-HLA-A2402
“我进的是516房间,门虚掩着,我推门进去,把餐盒放在桌子上,然后在手机上确认账单后才出来.因为信号不好,所以耽误了几分钟的时间.为什么从楼梯出去?那是因为电梯口立着故障
期刊
在数字音频编码近二十年的发展过程中,传统的基于信息论的,利用原始信号内部冗余统计特性的数字音频压缩技术,由于其自身对于存储介质容量以及传输带宽的较高要求,已经无法满足人
现实中,图像在被获取和被传输时常常会受到各种各样的噪声干扰,例如高斯白噪声、脉冲噪声和乘性噪声等。为了改善图像质量以及便于各种后续处理(如边缘检测),学者们提出了许
肥胖症是一种主要的代谢疾病,大量的脂肪堆积是2型糖尿病,脂肪肝以及动脉硬化等疾病的重要诱因。肥胖症包括脂肪组织功能紊乱和脂质代谢失调。βarrestins是G蛋白偶联受体信号
本文以长白山25hm2阔叶红松林与5hm2次生杨桦林样地为研究平台,从间隔5年的各2次DBH≥1cm的树种全面调查数据入手,以树种分布、微生境异质性、基于竞争的邻居密度为研究内容,系
作为一门初中必修的基础课程,物理知识是每个中学生都要掌握的。物理作为一门自然科学,由于其研究的过程需要大量的实验操作去验证相关理论,所以初中物理实验课程的开设不仅有助
2019年,人类科技史上写下了许多值得铭记的事件:中国“嫦娥4号”实现人类探测器首次月背软着陆;美国“新视野号”探测器完成了人类探测史上最遥远的一次星际“邂逅”;“事件
期刊