论文部分内容阅读
网络等信息技术的迅速发展和广泛应用产生了大量的数据流,如:超市交易记录、网络搜索请求、电信通话记录等。这些数据流中隐含着丰富的有价值的知识亟待挖掘。分类算法研究作为数据挖掘的一个重要分支,针对数据流的分类规则挖掘研究课题在信用卡欺诈,网络入侵发现等领域具有重要的应用价值。然而,由于数据流具有快速性、无限性、连续性、多变性等特征,特别是其中隐含的概念漂移现象使得大多数传统的分类算法因需要多遍扫描数据库以及存储全部数据,而不再适用。因此,研究高效的数据流分类知识发现算法成为重要的研究课题。本文主要针对数据流的分类问题开展了以下工作的研究:(1)概述了数据流的定义、特点、应用领域、理论基础及其数据处理方法;介绍了概念漂移问题的定义、分类、度量标准等内容;总结与分析了数据流及其概念漂移问题的现状,对未来研究进行了展望。(2)针对传统决策树挖掘算法,在处理数据流时所存在时空性能的局限,提出基于随机决策树模型的半随机化多决策树的增量式分类算法SRMTDS。该算法利用Hoeffding边界不等式,采用启发式方法确定连续属性结点的分割阈值,同时引入朴素贝叶斯方法判断叶子结点类别标识。分析与实验表明,与经典算法VFDTc相比,该算法的空间性能和抗噪能力有显著提高,分类精度有所提升,并且在处理属性维度较大的连续型数据库时,其时间性能也有明显的优势。(3)针对数据流概念漂移问题,以半随机决策树模型为基础,提出处理数据流概念漂移问题的增量式分类算法SRMTCD。该算法采用训练窗口与测试窗口的双滑动窗口机制,利用Hoeffding边界不等式设定噪音与漂移的区分阈值,选择一定的分类函数计算分类错误率对模型进行周期性检测。分析与实验表明,与经典算法CVFDT相比,该算法在保证分类精确度优势的前提下,时间性能与抗噪性能显著提高。