基于不平衡数据集的决策树算法研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:stephenz2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据挖掘技术的不断发展和应用,决策树作为数据挖掘技术中的一个分类问题的解决策略,也越来越受到重视,并被不断的研究。目前研究决策树的算法很多,比较著名的有ID3算法、C4.5算法和CART算法等。这些传统的算法在构建决策树时,都是以数据集的类分布大致平衡为前提条件的,不能对少数类样本做出有效的识别。在不平衡数据集中,少数类样本成为主要应用和研究的对象,因此基于传统决策树算法设计的分类器就完全失去实际意义。研究新的方法来解决这一问题变得非常迫切。  本文简单介绍了数据挖掘的相关知识,研究了目前的分类技术,以及常用的分类算法。通过对不平衡数据集的研究,发现传统分类算法无法有效解决不平衡数据集分类问题,并分析了产生这种情况的原因。本文基于对决策树技术的学习和研究,提出一种新的针对不平衡数据集分类问题的决策树算法-类置信度比例决策树算法,通过对信息增益的描述验证了新算法是健壮的。新算法采用了类置信度比例作为度量。同时通过一个新颖而有效的自上而下和自下而上的方法,用Fisher的修剪树枝法去精确测试它是否是一个统计标志。使用新算法产生的分类器不但解决了不平衡数据集问题,而且比著名的平衡取样技术学习树能更好的完成统计。通过大量的实验验证了新算法比传统的决策树算法更具有优越性。
其他文献
目前,经济型数控系统在我国市场中占据主要份额。传统的基于单片机的经济型数控系统具有价格便宜,易于操作,可靠性较高等特点,但是普遍功能单一、运算能力不强、控制精度较低,已不
随着物联网的逐步推进,RFID(Radio Frequency Identification)技术也将得到进一步发展。RFID技术主要应用在物流、门禁、追踪、身份识别等各个方面。目前在RFID技术方面,国内与
回答集程序设计(Answer Set Programming,ASP)是基于回答集语义的逻辑程序设计,它是一种新的知识表示和推理的工具,是近几十年来逻辑程序的研究热点,然而,根据回答集程序设计
近年来随着各种定位系统的广泛应用,以及其在工业、民用和军事领域的应用需求,声源探测和定位系统的研究已经成为新的研究热点。本文在总结前人的工作基础之上,主要通过对空
随着P2P网络的快速发展,越来越多的人在P2P网络上获取或者共享信息资源。资源共享已成为P2P网络最主要的应用之一,资源搜索机制的有效性是影响其应用能力的关键。当前如何设
交通分析是道路交通研究和管理的核心内容。在发现道路交通参数变化规律的基础上,对各个交通参数进行准确的预测,能够为路网规划、路径诱导等道路交通应用提供重要的决策支持
随着环境感知与地图生成技术的飞速发展,尤其是SLAM(SimultaneousLocalization And Mapping,同时定位与地图生成)取得了巨大的研究突破,基于移动平台多模态传感器的感知方法
电子政务系统发展突飞猛进,多应用性、分布性、多地域性成为大势所趋,电子政务在新环境下的安全问题成为研究热点,电子政务系统安全服务平台可以通过在安全基础设施与电子政
随着互联网的普及和网络数据量的迅速膨胀,网络信息抽取和整合变得尤为重要。当前,网络上存在大量的信息,这些信息以结构化的形式存储在网站的后台数据库中,通过模板包装成网
细胞内的很多重要生理过程,如细胞信号转导、免疫反应、基因复制、转录、翻译以及细胞周期调控等,都是通过蛋白质复合体或蛋白质分子间相互作用来完成的。因此要充分理解和认识