基于半随机多决策树模型的数据流概念漂移发现研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:ifever2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络等信息技术的迅速发展和广泛应用产生了大量的数据流,如:超市交易记录、网络搜索请求、电信通话记录等。这些数据流中隐含着丰富的有价值的知识亟待挖掘。分类算法研究作为数据挖掘的一个重要分支,针对数据流的分类规则挖掘研究课题在信用卡欺诈,网络入侵发现等领域具有重要的应用价值。然而,由于数据流具有快速性、无限性、连续性、多变性等特征,特别是其中隐含的概念漂移现象使得大多数传统的分类算法因需要多遍扫描数据库以及存储全部数据,而不再适用。因此,研究高效的数据流分类知识发现算法成为重要的研究课题。本文主要针对数据流的分类问题开展了以下工作的研究:(1)概述了数据流的定义、特点、应用领域、理论基础及其数据处理方法;介绍了概念漂移问题的定义、分类、度量标准等内容;总结与分析了数据流及其概念漂移问题的现状,对未来研究进行了展望。(2)针对传统决策树挖掘算法,在处理数据流时所存在时空性能的局限,提出基于随机决策树模型的半随机化多决策树的增量式分类算法SRMTDS。该算法利用Hoeffding边界不等式,采用启发式方法确定连续属性结点的分割阈值,同时引入朴素贝叶斯方法判断叶子结点类别标识。分析与实验表明,与经典算法VFDTc相比,该算法的空间性能和抗噪能力有显著提高,分类精度有所提升,并且在处理属性维度较大的连续型数据库时,其时间性能也有明显的优势。(3)针对数据流概念漂移问题,以半随机决策树模型为基础,提出处理数据流概念漂移问题的增量式分类算法SRMTCD。该算法采用训练窗口与测试窗口的双滑动窗口机制,利用Hoeffding边界不等式设定噪音与漂移的区分阈值,选择一定的分类函数计算分类错误率对模型进行周期性检测。分析与实验表明,与经典算法CVFDT相比,该算法在保证分类精确度优势的前提下,时间性能与抗噪性能显著提高。
其他文献
网页自动文本分类是处理和组织大规模网络文本信息的关键技术,是使信息资源得以合理有效组织的重要方法,同时也是解决主题搜索、个性化信息检索、搜索引擎的目录导航、信息过
粗糙集理论是一种新的处理模糊和不精确问题的重要数学工具,由荷兰学者PawlalkZ于1982年提出的。它不依赖于数据集之外的附加信息,是处理含有噪声、不精确、不完整数据的有力
本文从传统的软件测试技术出发,结合面向对象编程技术的特点,分析了面向对象软件技术对软件测试技术的影响,并从测试角度对面向对象的基本概念进行了剖析,在此基础上,讨论了
随着网络以及多媒体技术的迅速发展,呈指数级增长的数字视频与人们有限的时间产生了矛盾。于是将长时间的视频提取成简短的视频或者画面,但是又不丢失原视频主要内容的视频摘
信息隐藏技术是近些年来信息安全领域出现的一种新技术,该技术对于隐秘通信有着重要的意义。相对于版权保护领域,信息隐藏技术在音频隐秘通信的研究才刚刚开始,必须要考虑到
随着Web技术的发展,越来越多的企业应用被开发出来,但是目前存在的很多企业应用由于市场效应、技术等原因缺乏合理的系统架构支持和有效的维护文档,给系统的维护和升级带来了很
随着计算机网络的不断发展和Internet的广泛应用,人们可以共享世界范围内的资源和信息。为方便共享和管理纷繁复杂的网络资源和信息,目录服务技术应运而生。轻量级目录访问协
随着计算机研究领域突飞猛进的发展,由此产生的科技文献呈爆炸性增长。面对浩如烟海的资源,用户目前无法直接查询出他所关心的研究领域发展历程及当前该领域的研究热点。而依
面向服务的体系结构(SOA)作为一种新的软件架构方法,已成为企业实施信息化集成的首选解决方案。但SOA所具有的动态性、开放性特点,使其面临的安全问题更加突出。服务请求者和
随着视频监控技术的发展,嵌入式视频监控系统以其直观、方便和内容丰富等特点,日益受到人们的重视和关注,被广泛应用于众多场合。武汉精伦电子股份公司的四路网络视频监控服