论文部分内容阅读
随着大数据时代的来临,数据以数据流的形式快速产生,多标签数据流应用亦更加普遍。例如:电子邮件分类、新闻推送、医学诊断、图像识别等。由于多标签数据流具有速度快、数据量大、概念漂移、样本属于多个标签与标签依赖等特征,要求学习模型能够同时处理数据流与多标签数据的特性,给数据流的概念漂移检测和分类问题的研究提出了新的挑战。在多标签数据流中,样本属于多个类别标签,使用问题转换法可将一个多标签数据流转化成一个或多个单标签数据流。但是,这种转换方法不适用于多标签数据流环境。因为在概念会随时间而变化的数据流环境下,样本属于的标签组合不断变化;样本所属标签之间的依赖关系也会发生变化。针对以上问题,本文开展了以下三个方面的工作:(1)通过分析多标签概念漂移数据流分类算法EaHTps中存在频繁标签组合未被保存,影响了最终分类准确率的情况,提出了一种基于类别增量学习的算法EaHTcl。该算法动态地识别新的频繁标签组合,以类别增量学习方式更新训练的多标签分类器。实验结果表明:该算法有效地提高了分类准确率;(2)通过分析多标签数据流中样本与标签之间的关联性,提出一种基于概率相关性的多标签数据流概念漂移检测算法。其基本思想是从概念漂移产生的原因出发,利用样本与标签之间的概率相关性近似描述数据分布,监测新旧数据分布变化,判断概念漂移是否发生。实验结果表明:提出的算法能够比较快速、准确地检测到概念漂移;(3)通过分析多标签数据流中普遍存在的标签依赖,包括标签之间和特征与标签集合之间的关联性,提出了一种基于标签分组与熵的概念漂移检测算法,采用标签分组技术将相互关联的标签聚集成组,再利用熵度量特征与标签子集之间的分布关系,最后引入阈值法判定样本分布是否发生变化,以检测概念漂移。验证实验主要集中于涉及不同类型概念漂移的模拟数据集,实验结果表明:考虑标签之间的关联性有助于处理多标签数据流中概念漂移问题,提出的算法取得的分类准确率优于其他算法。