基于粗糙集的决策树算法研究与改进

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:dingbinqi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指在数据中发现模式、知识或数据间的关系。分类挖掘是数据挖掘中最活跃、最成熟的研究方向,分类算法又是其中涉及到的关键技术。在各种分类算法中,决策树方法有更易被用户理解、更适合大训练数据集以及不需要处理训练数据集以外的信息等优点,已经得到广泛的研究和应用。但基于信息论的传统的决策树技术也存在缺点:偏向于选择属性值较多的属性、对样本质量依赖性强和被限制在每个结点上只检验单个属性等。为此,本文把粗糙集技术应用到决策树算法中。粗糙集是研究不精确、不确定知识的工具,具有很强的知识获取能力。在研究的过程中,发现以粗糙集为基础的区分价值属性选择判据优于传统的信息熵,可以降低决策树的规模,但是需要两两比较所有对象,时间性能不好。据此,本文提出了H-重要和L-重要两个概念,减少了比较次数,降低了时间开销。为了进一步降低树的规模,克服单变量决策树没有综合考虑属性间的联系等不足,本文用多变量构造算法结合H-重要和L-重要两个概念重新构造决策树。以H-重要集合中的部分属性作为初始的检验属性,对基于区分价值的决策树算法进行了进一步的改进。最后,利用实验对改进的基于区分价值的决策树算法和基于区分价值的多变量决策树算法进行对比分析。实验结果表明,前者降低了算法的时间开销,但是却并没有牺牲决策树分类的准确性,而后者构造的决策树在规模上得到了进一步的缩减,也就是构造了更为简单的决策树,也不失分类的准确性。
其他文献
作为一个新兴的自然语言处理研究方向,话题检测与跟踪(TopicDetectionandTracking,TDT)是一项旨在基于事件对信息进行组织和利用的研究,也是为了应对信息过载问题而提出的一项
在全球经济一体化的趋势下,企业为了在市场竞争中占有更多的市场份额、降低成本,更加快捷地获取和处理信息,纷纷选择B/S模式数据库应用系统来完成对信息的处理。然而,由于互
铁路集装箱空箱调度是铁路集装箱运输的一个重要组成部分。由于目前铁路集装箱空箱调度方案的不合理性,空箱的利用率较低,同时空箱调度成本也占据了集装箱管理总成本的较大部
随着网络技术的广泛应用,信息量正以超乎人们想象的速度增长,这使得网络存储技术得到了迅速的发展,而信息量的增长也导致存储系统的规模变得越来越庞大,管理越来越复杂,这种
近二十年来,在我国水产业获得迅猛发展的同时,着实存在着令人担忧的危机:鱼类病害频繁发生,生产管理水平低下,服务体系落后,经济损失严重。为解决病害频繁发生而领域专家缺乏的矛盾
E-Learning是一种新的教育方式,它充分利用现代信息技术所提供的全新沟通机制与丰富资源,实时推送个性化的、全面的、动态的学习内容,并辅助形成知识社区,将学习者和专家联系
随着信息科技的快速发展,软件开发和测试已经成为社会的一个新兴产业。各行各业都对软件的需求日益增加,同时也对软件的质量和可靠性提出了更高的要求。传统上,在软件可靠性的表
本文采用知识驱动型目标识别策略。结合前人的理论成果,分别研究和实现了基于形状特征和边缘特征的两种对水上桥梁识别方法,以及一种基于直线模型的机场识别方法。 基于形状
随着大规模处理器系统的快速发展,处理器的故障诊断已经成为系统可靠性研究中的一个重要问题。优良的网络模型应具备良好的诊断性,使其可以更好地诊断出系统中的错误处理器从
随着网络与CAD技术的迅速发展和不断广泛应用,产品数据安全已经成为一个新的研究领域,而协同环境中共享CAD模型的数据安全对于产品的开发和全生命周期管理显得尤其重要。其中