不平衡数据集相关论文
针对分类任务中的不平衡数据集造成的分类性能低下的问题,提出了类不平衡数据的EM聚类过采样算法,通过过采样提高少数类样本数量,从根......
针对传统过采样方法导致的边际模糊及数据量增大的问题,提出了一种基于不平衡数据集的改进极限梯度提升(XGBoost)算法,并结合JJATT恐怖......
在实际工程应用中,滚动轴承在大多数时间都工作在正常状态下,故障状态时间很短。由于成本,让其长时间工作在故障状态是不现实的。这将......
由于现场条件限制,用于列车轴承故障诊断的故障数据样本量较少且多为不平衡数据集,为及时准确地识别轴承故障,提出一种基于互补经验模......
窃电现象不仅会为电力企业和国家带来巨大损失,还会对电网的安全运行和人身财产安全具有重要的影响。实时准确的定位窃电检测对电......
文章针对传统SMOTE及BSMOTE过采样方法会导致多数类样本识别率下降的问题,提出基于局部密度的改进BSMOTE算法(LDBSMOTE)。首先,根据样......
随着我国经济的发展和公积金制度的不断完善,人们使用公积金贷款购房的需求日益增加,银行的相关信贷业务也发展迅速。公积金贷款事......
随着我国国民经济产值大幅度提升,人民生活水平大幅度提高,我国的生活垃圾产生量也持续上升。不断上涨的生活垃圾使生态环境污染情......
针对目前常用的入侵检测数据集存在的类别不平衡问题,从数据的采样层面出发,提出基于数据增强的入侵检测算法,并对数据进行了特征选择......
在二代测序技术的推动下,宏基因组学的研究在广度和深度上都发生了巨大的变革,带来了宏基因组数据井喷式的增长,因此也给机器学习......
随着人工智能的高速发展和移动设备的普及,各种基于深度学习的应用进入我们的生活,深度学习的成功离不开神经网络对数据的高表征能......
企业财务困境预测是企业信用评估领域的重要研究课题,也是现实社会生产中企业管理、投资、授信及监管决策所面临的棘手问题。我国......
不平衡数据的分类问题一直是机器学习与数据挖掘的共同课题。在传统的学习过程中,分类器大多在不平衡比例接近1的数据集上进行分类......
2020年新冠疫情席卷全球,全国人民积极响应“宅家抗疫”的号召,使得网络金融蓬勃发展,但有不少犯罪团伙借此机会以网络游戏或网络......
人才是我国经济社会发展的第一资源,关键人才的流失将对企业造成极大的影响,建立适合企业本身的人才离职预测模型有着至关重要的意......
信息物理融合系统(Cyber-Physical System,CPS)是一种智能化系统,它实现了计算、通信和控制的高度融合。在“中国制造2025”的战略中......
移动互联网的普及伴随着大量网络安全问题的出现,许多新型的网络攻击方式层出不穷,危机事件频发。我国互联网安全态势仍然严峻。如......
工业控制系统异常检测大多面临类不平衡问题,从而导致检测模型准确率下降和泛化能力变差。根据生成式对抗网络,提出一种只使用正常样......
许多现实生活中的应用都受到类不平衡问题的困扰,如医疗诊断和金融危机预测。在这些应用中,目标往往是代表性不足的类别。然而,经......
互联网已经成为人们日常生活中不可缺少的一部分,网络在带来便捷生活的的同时,由于网络安全问题日益突出,也给人们带来了严重困扰和焦......
随着互联网技术的快速发展,计算机及网络资源逐渐成为社会公共基础设施的重要组成部分。然而,随着相关技术进步,攻击者也不断创造出新......
不平衡数据集是指在数据集中,某一类样本的数量远大于其他类样本的数量,其会影响分类结果,使基本分类器偏向多数类。合成少数样本......
针对文本多分类算法中,由于不平衡数据集产生的小样本分类数据准确率低问题,提出基于轮廓系数动态K-means聚类的文本多分类混合式......
近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流.但是当不同类......
如何能够在一个复杂的音频环境下检测音频事件并进行相关语义分析研究在多媒体检索、安全领域和移动机器人领域等都有广泛的应,成......
支持向量机(SVM)为一种由Vapnik等人研发出的机器学习方法,是面向小样本进行学习而提出的方法。它在统计学习理论的基础上发展而来,......
21世纪是一个高度信息化的时代,数据作为载体隐藏着大量可以挖掘的有用信息,如何处理数据和提取有价值的信息已成为迫在眉睫的问题......
线性分类器虽然是模式识别中最简单的一类,但在许多问题中往往能取得比较好的结果,由于其简单容易实现,对资源要求低而被广泛应用。 ......
随着数据挖掘技术的不断发展和应用,决策树作为数据挖掘技术中的一个分类问题的解决策略,也越来越受到重视,并被不断的研究。目前研究......
蛋白质序列之间的远程同源检测和蛋白质相互作用预测是计算生物学中一个中心的问题。诸如支持向量机(support vector machine, SVM)......
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,但是在实际应用中,经常会出现文本实例中一些类中的文本很多,而另一......
不平衡数据集指的是数据集内各类样本点数目相差较大的数据集。使用传统的数据挖掘算法处理不平衡数据集存在着准确率低下、分类效......
邮件在人类通信上的地位越来越重要了,在给人们带来便利的同时,也使得人们不得不花费大量时间来处理大量的邮件。随着邮件的普及,......
分类是数据挖掘和机器学习领域的一个热点问题,传统的分类问题主要关注数据分布平衡的情况,但是在实际应用当中数据不平衡的情况时......
现代计算机技术的高速发展,使得在科学研究和社会生活的各个领域中积累了大量的数据,为将这些数据转换成有用的信息和知识,数据挖......
不平衡数据学习已经逐渐成为当前机器学习领域研究热点之一。在解决不平衡数据集的学习分类的问题时,需要尽可能大的提高分类器对......
集成学习是被广泛应用的学习技术之一,它通常需要训练多个基学习器。而已有的应用及理论研究表明,删除集成系统中一些冗余或者分类......
分类是机器学习领域的重要研究方向之一,经过多年发展形成了一些较为成熟的算法,并在实际中取得成功的应用。这些传统的分类算法以分......
随着旅游行业在全球范围内的快速发展,人们越来越倾向于通过有效的搜索引擎寻找发现有趣的地方以及收集相关的信息。随着Web2.0的......
软件缺陷预测技术通过对软件历史数据进行分析,利用分类、排序等模型,识别潜在有缺陷的软件模块。软件缺陷预测模型构建过程中,有......
分类问题中,当数据集中某类别所包含的样本数目显著少于其他类别时,很多分类算法的准确率明显下降。针对这一问题,研究者们提出了......
随着信息技术的高速发展,各行各业的数据仓库中存储着大量的不完备的数据。如何对这些数据进行分析是近些年来研究的热点。数据挖......
卫星在轨运行中,需要对有效载荷的在轨运行模式进行判断。以暗物质粒子探测卫星(DAMPE)为例,工作人员通过监测暗物质粒子探测卫星......
强跳跃显露模式(Strong Jumping Emerging Pattern,SJEP)是近年来提出的一种具有良好区分能力的区分模式,基于SJEP的分类算法能取......
文本分类是数据挖掘领域的热点问题,但在实际应用中,会出现一些类中的文本很多,而另外一些类中的文本相对较少,不同类别数据集规模......
随着我国航天事业的快速发展,密封继电器内的多余物问题成为限制航天系统安全性能的主要问题。微粒碰撞噪声检测(PIND)是目前航天......