【摘 要】
:
随着科技的迅速发展,实际应用领域涌现出大量流数据,这些数据不仅具有海量、快速、含多个标签与特征高维的特点,且其数据分布会随时间动态变化引起概念漂移等问题。因而如何在多标签流数据环境下快速挖掘有效信息,成为数据流分类的重要研究任务之一。本文旨在针对概念漂移和流特征的多标记流数据分类问题开展研究,主要研究工作包括:(1)针对多标签流数据的概念漂移问题,提出一种基于核极限学习机的数据流集成分类方法。首先
【基金项目】
:
国家重点研究计划项目“大数据知识工程基础理论及其应用研究”(No.2016YFB1000901),2016.07-2021.06; 国家自然科学基金面上项目“面向多标记文本数据流分类方法研究(No.61976077),2020.01-2023.12;
论文部分内容阅读
随着科技的迅速发展,实际应用领域涌现出大量流数据,这些数据不仅具有海量、快速、含多个标签与特征高维的特点,且其数据分布会随时间动态变化引起概念漂移等问题。因而如何在多标签流数据环境下快速挖掘有效信息,成为数据流分类的重要研究任务之一。本文旨在针对概念漂移和流特征的多标记流数据分类问题开展研究,主要研究工作包括:(1)针对多标签流数据的概念漂移问题,提出一种基于核极限学习机的数据流集成分类方法。首先,在前k时刻滑动数据块上分别采用核极限学习机训练基分类器,构建集成模型以适应潜在数据分布变化。其次,利用Apriori关联算法得到每个数据块的标签相关性,并将同现标签的置信度引入到基于集成模型的预测过程中以提高整体的分类精度,再者,引入基于MUENLForeset模型的概念漂移检测机制,利用集成模型对第k+1时刻数据块分类结果预测,并检测是否发生概念漂移。当检测到发生概念漂移时,则利用当前数据块信息重新训练单个模型,设置权重函数以降低旧数据在此后计算过程的占比,并根据分类精度更新集成模型。最后,实验结果表明:与经典多标签分类算法相比,所提方法在适应多标签数据流中基于标签分布变化引起的概念漂移问题的同时,取得较优的分类精度。(2)针对多标记数据流的特征高维与多种类型的概念漂移问题,提出一种基于在线序列核极限学习机的高维多标签数据流集成分类方法。首先,根据滑动窗口机制将数据流划分为数据块,在前k时刻数据块上分别采用在线序列核极限学习机训练基分类器构成集成模型,利用集成模型对第k+1时刻数据块分类预测。其次,采用余弦相似度计算每个数据块中标签信息得到标签相似度矩阵,并提出基于K近邻和标签相关性的流特征降维方法以降低特征高维对分类精度的影响;再者,引入余弦相似度检测新旧数据块间是否发生特征、标签或者两者皆有的概念漂移。并根据漂移检测情况对新数据块重新训练基分类器,以更新集成模型。最后,实验结果表明:所提方法在高维多标签流数据环境中能保持较好的分类效果并对特征、标签发生的概念漂移有较强的适应能力。
其他文献
高光谱图像包含大量的光谱波段,它是一种同时结合光谱信息和空间信息的三维图像数据。在现实生活中,高光谱图像可以应用到许多领域。例如:在农产品的检测中有助于种类识别;对地表建筑物的分类有助于城市管理;对病理图像的识别可用于疾病监控;对军事地图的分类能应用于国防建设。因此提出新颖高效的高光谱图像分类方法能够在众多领域中发挥重要的作用。为了提升高光谱图像分类的精确性,需要解决其高维度和样本少的困难。而深度
随着自然语言处理技术的不断发展,人们开始利用神经网络搭建人和机器之间的沟通桥梁—情感分析。已有的方法已经无法满足精细化分类的需求,研究者们开始追求细粒度更高的方面级情感分析技术,但是分析结果的准确度和时间成本一直以来都差强人意。本文针对方面级情感分析存在的一系列问题展开相关研究,本文的主要工作内容如下:(1)本文提出一种基于层次神经网络的方面级情感分析模型,利用双向LSTM对文本信息进行处理,同时
同时定位与建图(Simultaneous Localization and Mapping,SLAM)指的是机器人在未知环境中利用自身搭载的传感器,在运动过程中通过观察到的环境信息对自身位置和姿态进行定位,并同时构建周围环境的地图。SLAM在自动驾驶、避障导航、服务机器人等方面有着广泛的应用,是智能机器人应用的核心关键技术。目前视觉SLAM研究多数假定环境是静态的,使得SLAM算法无法处理复杂多变
同时定位与建图(Simultaneous Localization and Mapping,SLAM)是移动机器人领域的关键技术之一。已经成熟的视觉SLAM算法大多假设场景是静态的,当场景中存在运动物体时会干扰特征匹配,进而对SLAM系统的定位以及建图的精度造成较大影响。所以在动态环境下,SLAM算法需要识别出场景中的运动物体。本文设计视觉SLAM算法,提升算法在动态环境下的定位精度,并生成动态环
随着空域环境的日益拥挤,针对海量的飞行目标航迹数据进行航迹起始和识别的研究,有助于深度认知空域态势,从而为空域监管提供有效支持。雷达作为获取飞行目标航迹数据的主要手段之一,在航迹起始和识别的研究中发挥着不可比拟的作用。然而,传统的雷达目标航迹起始和识别算法已经难以应对当前多样化、复杂化、大数据化的雷达探测环境。本文基于深度学习技术,分别进行了雷达目标航迹起始和识别研究。主要研究内容如下:(1)提出
因果关系是一类具有明确导向的关系类型,尤其在健康领域具有更多的实际应用价值,比如分析疾病的致病因素等。目前,很多生物医学文献都包含因果关系知识,这部分因果关系值得被挖掘。为此,本文设计开发了一个面向健康领域的因果关系图构建系统,提取相关生物医学文献中的因果关系,并整合不同数据源,构建因果关系图,旨在帮助健康领域的从业人员决策判断,归因分析等。本文工作分为以下两部分:(1)提出了基于循环神经网络的因
阵列天线方向图综合是阵列信号处理领域的重要研究方向之一,具有重要应用意义。其主要目的在于确定阵列天线的激励系数、阵元数目和位置等参数,使阵列天线的辐射特性满足期望的指标要求。然而,在很多实际应用场景下,为了节约成本简化阵列馈电网络设计复杂度,希望通过唯相位方向图综合的方式实现期望辐射特性,这种方法只使用移相器实现波束控制,能够实现阵列馈电网络的一致性。本文主要研究大型阵列天线的唯相位方向图综合的相
作为车辆的关键标志,车标不易被篡改,对车辆信息的提取有着重要的辅助作用。传统基于手工描述子的车标检测算法存在精度低、速度慢等问题,而基于深度学习的检测算法则难以平衡速度和精度。本文基于卷积神经网络(convolutional neural network,CNN)对车标检测进行研究,在现有目标检测算法的基础上,进行了改进和优化,提出了两种车标检测算法:基于YOLOv3的快速车标检测算法YVLDet
旋转机械是现代工业系统中最为重要的组成部分,随着大数据和人工智能等先进技术的发展,深度学习已经成为智能故障诊断领域的热门话题。然而在实际工况下,智能故障诊断方法的研究过程中往往会出现的以下两个问题:(1)标签数据不足,导致模型无法收敛。(2)不同工况,不同类别空间的故障诊断方法难以通用。因此,如何在少量样本下完成故障诊断,如何实现训练数据和测试数据不同工况下的高精度故障诊断以及跨部件的智能故障诊断
工业控制系统(Industrial Control System,ICS)测试床仿真模拟工业生产过程,广泛用于生产控制优化、计划与资源优化、人员培训、安全评估与安全测试研究等。现有包含实物的实物复制测试床、半实物测试床搭建成本较高,且测试床规模远不及实际系统的规模,导致基于测试床的相关研究具有一定的局限性;基于软件联合的纯软件仿真类测试床,不便于开展网络攻防等交互性要求较高的相关研究与测试。针对以