【摘 要】
:
分类是一种有标签的机器学习,属于监督学习中的一种,在分类中经常会遇到类别不平衡的数据集。类别不平衡导致分类结果会偏向于多数类,对少数类的识别精度不高。现实中的数据集通常包含被错误标记的标签,这种包含错误标签的样本被称为标签噪声。标签噪声会造成决策边界偏移,降低模型的预测性能,增加模型的复杂程度。当不平衡数据集中存在标签噪声时,会给分类器造成较大的负面影响。采样是一种解决类别不平衡的方式,它通过增加
【基金项目】
:
国家自然科学基金62176033和61936001号; 重庆市教委重点合作项目HZ2021008号; 重庆市自然科学基金cstc2019jcyjcxtt-X0002号;
论文部分内容阅读
分类是一种有标签的机器学习,属于监督学习中的一种,在分类中经常会遇到类别不平衡的数据集。类别不平衡导致分类结果会偏向于多数类,对少数类的识别精度不高。现实中的数据集通常包含被错误标记的标签,这种包含错误标签的样本被称为标签噪声。标签噪声会造成决策边界偏移,降低模型的预测性能,增加模型的复杂程度。当不平衡数据集中存在标签噪声时,会给分类器造成较大的负面影响。采样是一种解决类别不平衡的方式,它通过增加少数类样本的数量或减少多数类样本数量来平衡数据集类别比例,但是通常也会增加噪声样本或丢失数据信息。本文针对带标签噪声的不平衡数据集分类问题,主要进行了如下两个方面的工作:1.当面对带标签噪声的不平衡数据时,现有的采样方法通常有一定局限性,因此本文首次将粒球运用于过采样,提出了一种不限于任何特定数据集、特定分类器和特定场景的通用采样算法,称为粒球过采样。粒球可以拟合数据集的分布,过滤标签噪声和离群样本,通过不断地划分粒球,来拟合数据集的决策边界,离群样本位于粒球之外。计算每个粒球的纯度,噪声样本所在的粒球纯度较低,通过在粒球内部过采样以平衡数据集。实验表明,在不平衡高噪声数据集中,粒球过采样的抗噪性更好。2.本文提出了一个通用的加权过采样算法,通过计算每个少数类样本的近邻样本中多数类的数量以分配每个少数类样本的权重,精确指定每个合成样本的插值位置,使合成样本更接近安全和干净的样本,远离危险样本。危险样本指近邻样本中带有异类样本。这样能大概率地减少新样本中标签噪声样本的数量,这个通用的加权算法可以与多种过采样算法结合。实验表明,不同的过采样算法结合本算法后的性能都优于原始的过采样算法。
其他文献
随着生活中智能化的程度越来越高,机器学习逐渐应用到了现代智能化生产中。在机器学习当中,深度学习是一个重要的分支,其中卷积神经网络被广泛应用于计算机视觉领域的研究,其性能的优劣直接决定了相关任务的好坏。随着对卷积神经网络准确度要求越来越高,模型也变得越来越复杂,所需的硬件资源也越来越昂贵。近年来对卷积神经网络的研究从构建高准确率的大型卷积神经网络逐渐转向了如何构建更加实用高效的轻量级模型架构。研究轻
多目标跟踪技术与行人属性识别技术是计算机视觉领域中的两个重要分支,已经成功应用于智能安防、商业分析等领域。然而,多目标跟踪技术与行人属性识别技术往往是独立进行的,由于两者没有共享网络权重,因此存在参数量大、推理速度慢的问题。本文针对此问题,将多目标跟踪网络与行人属性识别网络进行集成,提出了多目标跟踪与角度识别一体化网络。在此基础上,本文将注意力机制引入多目标跟踪与角度识别一体化网络,提高了一体化网
近年来,随着大数据的发展,汽车数据服务变得尤为重要。在当下,使用人工智能技术依靠汽车行业历史数据预测未来销量,可以为相关汽车企业和汽车政府机构提供强有力的数据支撑,对销量变化趋势进行展示及预警,以便相关人员及时制定政策、及时调整企业的内部调度,避免由于风险应对不及时带来的财产损失和行业动荡。所以构建模型实现销量预测技术是关键,但是当前的许多研究对于汽车销量预测存在着不够具体和精确的问题。由于乘用车
随着现代通讯技术和交通设施的快速发展,交通设施使用者产生的数据呈现出一种爆炸式增长。不同城市和地区之间的人员来往产生了一系列的流动数据,通过对流动人口大数据的比对分析,尤其是地理位置、数据特征、居留意愿分析,可以比较清楚地看到人口流动的大致方向,从而把握流入地的产业结构组成和发展方向,达到完善人口流动机制、提高就业质量的目的,能更好地推动城市的服务管理。对国内人口流动特征进行可视化分析可以用于研究
随着大数据时代的到来,人工智能技术在许多领域发挥了重要作用,与此同时,人工智能安全问题逐渐凸显。机器学习模型作为人工智能系统的核心,其安全性也成为工业界和学术界关注的热点。自对抗样本的概念提出以来,针对机器学习模型的各种攻击层出不穷,现有攻击算法无法很好地兼顾攻击成功率和样本视觉效果,为了达到较高的攻击成功率而不惜对原始图像进行大规模像素修改,导致最终生成的对抗样本失真。并且大多数情况下对抗攻击算
图像是21世纪最重要的信息传播媒介之一,具有简洁且迅速的视觉信息传达能力。图像补全是数字图像处理领域的一项重要研究内容,目前的研究方法大多基于深度学习构建模型。然而,现有的图像补全技术仍存在一些不足,一些方法忽略了图像的边缘结构信息,在补全大面积不规则的缺失图像时无法还原高清晰度的结果;普通的局部判别器只能输入规则的缺失图像,不能补全非矩形的缺失图像,不具有普适性;另外一些方法没有注重生成结果和背
随着互联网时代到来,数据流量需求伴随设备数量增多而爆炸式增长。为了满足流量需求,异构无线网络通过大量部署小型化设备,来提升网络容量。但这种超密集部署方式增加了终端接入的随机性,使得网络性能易被外界因素影响。更有甚者,事故、新闻事件和娱乐活动等突发事件带来的聚集终端,会导致网络局部负载快速增加,使得网络拥塞,影响终端通信。对此,本文以缓解或规避网络拥塞、提升聚集终端服务体验为目标,从提前预警采取控制
稳态视觉诱发电位(Steady state visually evoked potential,SSVEP)是常见的脑机接口(Brain Computer Interface,BCI)范式,它是当人体收到固定的闪烁频率刺激后,在大脑后枕部区域产生的与刺激频率相关的一种EEG信号,其频率和刺激目标闪烁频率及谐波频率高度相关。由于其采集方便、信息传输率高等特点,SSVEP受到了研究人员的广泛关注。为了
随着卫星传感器的迅速发展,遥感卫星为遥感应用研究提供了丰富的遥感影像。合成孔径雷达(Synthetic Aperture Radar,SAR)图像和多光谱图像在对地监测方面具有互补的优势。其中,SAR能在各种气候条件下提供具有丰富空间细节特征的图像,但其图像缺少光谱信息。而多光谱图像属于光学图像,具有多个光谱段,但它易受大气环境影响降低了空间解析能力。因此,利用融合技术将多光谱图像和SAR图像互补