数据挖掘中属性约简及分类算法研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:wkkyo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指从数据库中抽取隐含的、具有潜在使用价值信息的过程,是一种新型的数据分析技术,己经被广泛应用于金融、保险、政府、教育、运输以及国防等领域。粗糙集理论是波兰数学家Z.Pawlak于1982年提出的一种新的处理模糊和不确定性知识的数学工具。本文结合粗糙集理论着重探讨了数据挖掘中属性约简与分类这两个核心问题。以信息系统为研究对象,通过研究完备信息系统下经典粗糙集模型的属性约简算法理论和方法,并指出了其中存在的不足,提出了一种基于粗糙集的改进的属性约简算法;对传统的决策树算法通过实例分析,指出算法中存在的问题,提出了一种传统的决策树算法的改进算法——基于属性加权平均重要性的决策树构造算法WMAS。本文主要工作及创新点如下:1.在对各种属性约简启发式算法中属性重要性研究基础上,提出了属性加权平均重要性的概念,该重要性综合考虑了属性对决策分类的重要性和在属性中的重要性。2.如何高效的实现粗糙集的属性约简,一直是粗糙集理论研究的重要内容。理论已经证明,搜索粗糙集属性约简的最优解是一个NP问题,因此,目前的研究已集中于如何求得属性约简的次优解上。本文先讨论了经典粗糙集的约简算法,在此基础上提出了一种基于粗糙集的属性约简改进算法,该算法在属性约简中不仅考虑到属性的重要性而且考虑了属性的信息量,能够得到信息系统的一个约简,且不需要求核,减少计算量,提高计算速度。3.通过对基于信息熵的决策树构造算法的研究得出,该方法存在的主要问题是一棵决策树中子数的重复,以及有些属性在一棵决策树中的某一路径上被多次检验,本文将属性加权平均重要性用于选择分离属性来构造决策树,且实现了基于属性加权平均重要性的决策树构造算法WMAS,该方法可以克服上述缺点,降低了复杂度,提高了分类精度。本文通过实例和实验对提出的算法进行了验证和证明。
其他文献
通信技术的快速发展,通信网络规模的愈加庞大,结构的愈加复杂,给网络的运行维护造成了许多困难,增加了网络运维的工作量和网络运行中发现故障、确定故障以及处理故障难度,影
随着计算机、互联网以及移动通信技术的迅猛发展,互联网正逐步走出其原有的军事、科研、教育领域,深入到人们的日常生活工作当中。从技术的角度来看,网络技术的发展需要相应
互联网的快速发展使网络上的各种信息呈现出快速增长的趋势。如何从浩瀚的互联网文本中获取有效信息、分析网页数据之间的关联性等,是自然语言处理领域的一项挑战。网页导航
核磁共振成像作为一门新兴的影像学检查手段,能够非常准确地显示脑部解剖结构,确定或排除绝大多数病变组织,在医疗诊断上得到了广泛的应用。随着科技的发展,人们对成像的要求
随着多核处理器技术的发展,计算机已经从单核逐渐过渡到多核,未来的计算机将具有越来越多的计算资源。如何采用一种高效和灵活的方式管理和利用众多的计算资源以及如何充分发
对象存储系统作为近几年兴起的一种存储技术,越来越在高性能存储领域受到重视,研究对象的相关性对于优化对象存储系统的管理策略和性能都有着重要意义。在对象存储系统中,元
随着信息时代的快速发展,不同行业产生了大量的行业数据。这些数据蕴含着行业的重要信息,然而这些数据过于庞大,不仅样本动辄千万计,而且数据维度较高,给数据挖掘工作带来极
随着互联网技术与应用的迅速发展,Web服务作为部署在互联网上的组件,展现出良好的封装性、松耦合性以及跨平台性。因此,Web服务成为了人们关注的焦点。近年来,互联网上出现的Web
为了解决传统基于会话初始化协议SIP(Session Initiation Protocol)的VoIP系统普遍存在的扩展性差和性能瓶颈的问题,人们提出了P2PSIP(Peer-to-Peer SIP)技术,用分布式的方法
随着计算机网络技术、特别是Internet技术的迅速发展和普及,从根本上改变了信息产业的组织结构、信息产品的开发方法以及信息技术的应用模式。基于Internet的企业内部网络Int