【摘 要】
:
随着现代企业数据量的日益增加,从这些数据中发现知识的要求也日益迫切.分类是数据挖掘的重要组成部分,它根据类标号已知的数据建立模型,进而使用该模型来预测类标号未知的数
论文部分内容阅读
随着现代企业数据量的日益增加,从这些数据中发现知识的要求也日益迫切.分类是数据挖掘的重要组成部分,它根据类标号已知的数据建立模型,进而使用该模型来预测类标号未知的数据所属的类.该文首先以银行数据挖掘系统为例,阐述了分类的前期工作——数据收集和数据预处理的过程及其方法.数据预处理包括数据清理、数据集成、数据变换、数据规约、离散化和概念分层.作者给出了数据清理的一些相关算法.其次,该文研究了决策树分类方法,指出ID3算法中存在的冗余计算,加以改进并举例说明改进的效果.Weka中实现了ID3算法及一些改进算法,作者描述了用这些算法建立客户流失模型的过程.最后,该文着重研究了模糊粗糙集方法,讨论了知识约简在数据预处理过程中的应用,实现了修正模糊粗糙集算法,并利用该算法建立了动态的信用评分模型.
其他文献
随着互联网的发展和日益广泛的应用,网络入侵也变得越来越严重,研究具有实时性与正确性的自动入侵响应系统,对于增强系统抵御攻击能力、保护自身资源具有重要意义,而其中如何
随着多媒体通信技术的发展及数据压缩技术的成熟,多媒体正逐步渗透到计算机应用的各个方面.多媒体应用在空间上有数据量大、在时间上有实时性和连续性的特点,这对操作系统的
视频信息具有直观、具体、生动等优点,在工农业生产、军事侦察和日常生活等领域发挥着重要作用.由于数字视频的数据量巨大,故而视频编码成为数字视频处理和应用中的关键技术.
近几年因特网的发展很快,在其给社会带来巨大利益的同时,计算机和网络系统的安全也成为了一个非常令人关注的问题.传统的保护计算机或网络系统安全的方法是在网络周围建立一
随着互联网的快速普及,信息检索工具的发展经历了三个阶段:从分类导航到搜索引擎,再到现在的推荐系统。推荐系统及相关推荐技术已经不知不觉中深入了人们的生活中,无论是视频
论文的主要工作是在多种处理器体系结构上建立嵌入式Linux系统的开发平台,包括嵌入式Linux操作系统、驱动程序的开发和底层软件的支持.该文所涉及和使用的技术对于其它处理器
该文研究的音字转换模块中,首先实现了对用户键盘输入拼音串的分析和预处理,以汉语拼音知识为指导,研究了拼音流的自动切分、检错以及输入标准化等技术,通过分析和处理,使用
为了认识和理解现代互连网路的行为特征和性能表现,以保证和提高现有网络服务质量、推动互连网络和信息基础结构的正确发展,有必要用一套完善的测量机制对网络性能进行测量.
现有政府内部电子公文传输系统中,对于电子公文在线批阅的功能比较缺乏.在实际工作过程中,仍需将电子公文打印成纸质文件进行批阅、发送.这不仅降低了工作效率,而且浪费了资
函数逼近方法是人们认识和掌握物质运动的重要方法之一.广泛应用于工业控制、CIMS、化工、能源、机器人,乃至人类社会和经济活动的各个领域.其中,具有自学习和自适应能力的神