多标签数据流分类中的类别增量学习与概念漂移检测的研究

来源 :桂林电子科技大学 | 被引量 : 3次 | 上传用户:lequ123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,数据以数据流的形式快速产生,多标签数据流应用亦更加普遍。例如:电子邮件分类、新闻推送、医学诊断、图像识别等。由于多标签数据流具有速度快、数据量大、概念漂移、样本属于多个标签与标签依赖等特征,要求学习模型能够同时处理数据流与多标签数据的特性,给数据流的概念漂移检测和分类问题的研究提出了新的挑战。在多标签数据流中,样本属于多个类别标签,使用问题转换法可将一个多标签数据流转化成一个或多个单标签数据流。但是,这种转换方法不适用于多标签数据流环境。因为在概念会随时间而变化的数据流环境下,样本属于的标签组合不断变化;样本所属标签之间的依赖关系也会发生变化。针对以上问题,本文开展了以下三个方面的工作:(1)通过分析多标签概念漂移数据流分类算法EaHTps中存在频繁标签组合未被保存,影响了最终分类准确率的情况,提出了一种基于类别增量学习的算法EaHTcl。该算法动态地识别新的频繁标签组合,以类别增量学习方式更新训练的多标签分类器。实验结果表明:该算法有效地提高了分类准确率;(2)通过分析多标签数据流中样本与标签之间的关联性,提出一种基于概率相关性的多标签数据流概念漂移检测算法。其基本思想是从概念漂移产生的原因出发,利用样本与标签之间的概率相关性近似描述数据分布,监测新旧数据分布变化,判断概念漂移是否发生。实验结果表明:提出的算法能够比较快速、准确地检测到概念漂移;(3)通过分析多标签数据流中普遍存在的标签依赖,包括标签之间和特征与标签集合之间的关联性,提出了一种基于标签分组与熵的概念漂移检测算法,采用标签分组技术将相互关联的标签聚集成组,再利用熵度量特征与标签子集之间的分布关系,最后引入阈值法判定样本分布是否发生变化,以检测概念漂移。验证实验主要集中于涉及不同类型概念漂移的模拟数据集,实验结果表明:考虑标签之间的关联性有助于处理多标签数据流中概念漂移问题,提出的算法取得的分类准确率优于其他算法。
其他文献
管理信息系统(MIS)是指在管理工作中以数据库为核心的计算机应用,是信息技术革命的重要内容。管理信息系统集成了计算机网络技术、通信技术、信息处理技术,对信息进行收集、传
无线传感器网络(WSN)可靠性分析是WSN设计、部署、验证和维护的一个重要环节。在传感器网络的应用中,为了让数据在环境嘈杂,故障以及时间变化的无线通道中进行可靠传输,传感器网
随着信息技术和计算机网络的飞速发展,人们不但可以通过互联网和CD-ROM方便快捷地获得多媒体信息,还可以得到与原始数据完全相同的复制品,因此,作为数字媒体版权保护的重要手
随着空间数据库、地理信息系统、基于用户位置服务和移动应用的普及和广泛应用,空间数据库管理系统的安全问题得到越来越多的关注。虽然很多安全技术,如加密、访问控制、入侵
分类挖掘是数据挖掘技术中一个非常重要的方法。常用的典型分类挖掘方法有决策树、神经网络、遗传算法、贝叶斯方法和k-最临近分类法等,这些方法对各自适用的数据集都表现出
近年来,电子商务产业因其便捷性和高性价比得到蓬勃发展,越来越多的人选择网上购物,然而,传统的电子商务网站大多采用文字、二维图像等较为单一的方式进行展示,忽略了用户对真实视
射频消融技术是继手术切除之后的另一种用来治疗肿瘤的有效方法,它是利用高频交流电作用于肿瘤组织时产生热效应,使肿瘤细胞局部温度升高,从而达到高温灭活癌细胞的目的。  目
近年来,随着信息技术的广泛应用和迅猛发展,各式各样的移动终端、互连设备逐渐走向了网络化、智能化,深刻的改变了人们的日常生活习惯。人们不再是被动地从网络环境中获取信息,而
视觉目标跟踪技术在智能监控系统、增强现实、模式识别和机器学习等领域有着广泛的应用,成为了计算机视觉领域研究热点之一。行人跟踪是视觉目标跟踪技术的核心研究内容,但由于
随着互联网的普及和网络用户的不断增加,互联网中 Web服务的种类与数目也随之产生了爆炸式地增加。现有的 Web服务领域还存在如下问题:一是如何在海量的服务中找到满足请求的服