面向大规模不平衡数据集的支持向量机研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:st704250036
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大规模不平衡数据集的分类已经成为机器学习领域的一个难点与热点,越来越多的专家专注于这一方面的研究。大规模指待学习的样本数量非常大,通常情况有几万几十万个甚至几百万个样本。大规模数据集学习需要大量的内存并耗费非常多的时间。不平衡数据集是指某类样本数量明显少于其他类样本的数据集。现实世界中普遍存在着类别分布不平衡的数据,使用传统的机器学习分类算法对不平衡数据进行分类时会倾向于多数类,对多数类有较高的识别率,而导致少数类的识别率很低。然而在许多实际的应用中,少数类样本非常重要,错分会造成重大损失。支持向量机(SVM)是Vapnik等人提出的一类新型机器学习方法。其学习性能出色,在很多领域都得到了成功的应用。本文将支持向量机用于大规模不平衡数据分类问题,提出自己的方法提高分类的速度与精度。 本文首先对大规模不平衡数据集的分类问题进行了简单介绍,接着阐述了支持向量机的基本原理,然后又介绍支持向量机处理大规模数据和不平衡数据的常用方法,最后提出将批量学习与双向采样相结合的支持向量机(BLBS-SVM):批量读入数据,判断正负类样本数之比是否超过设定的不平衡比,如超过则对多数类样本用CNN算法向下采样,对少数类样本进行SMOTE向上采样,然后使用带不同惩罚因子的C-SVM算法学习,记录支持向量,读入下一批数据学习直至所有样本学习完毕。本文在公共数据集上进行了实验,实验结果表明,本文的方法可以提高大规模不平衡数据集分类效率和精度。
其他文献
机器学习的目的是为了解决规模比较庞大,系统比较复杂的问题,因此如何挖掘及处理在大量数据中隐藏的潜在相关信息,从纷繁复杂的表象中提取出事物的本质特征愈显重要,并越来越受到
在我国的交通运输中,铁路一直以来都占据着重要的地位,随着铁路的不断提速,客运专线的陆续建成,铁路运能运力都大大提高,人们出行越来越方便。但是我国人口众多,流动性大,每逢年节,售
随着物联网水平化接入协议的逐步成熟与实用化,将设备直接接入云服务器以对设备进行实时访问逐步成为一种主流架构。由于现有互联网基础设施的限制,处于局域网中的物端设备往往
随着比特币、以太坊等加密数字货币的日益普及,区块链技术的研究和应用也日益兴起。区块链技术具有去中心化、安全可信和可编程等特点,引起了政府部门、金融机构、科技企业和资
射频识别(Radio Frequency Identification,RFID)技术被誉为本世纪十大技术之一,它是应用射频来自动识别单个物体对象的技术的总称。作为一种快速、实时、准确的信息采集与处理
为解决异构数据源的数据集成问题,本文设计了一个支持公共数据模型和统一查询语言XQuery的异构数据源数据集成系统框架。集成框架使用户不必考虑数据模型的异构性、数据抽取、
学位
网络的繁荣带动了电子商务产业的发展,其作为一种新型的商业运作模式正以惊人的速度发展,并成为推动全球经济增长的重要力量。电子商务利用Internet、计算机网络及无线通信等信
随着信息技术的飞速发展,企事业单位对信息系统的依赖性越来越大,信息的保密性、完整性、和可用性显得尤为重要,这正是信息安全所要管理保障的内容。信息安全管理系统通常通过问
随着计算机技术的不断发展,计算机领域进入了新的阶段一后PC时代。嵌入式设备正越来越多的进入到人们的日常生活之中。从工业控制,到网络设备,从信息家电到个人终端到处都可以见
学位
作为自然语言处理(Natural Language Processing, NLP)领域的一个核心问题,高性能句法分析在NLP应用领域中发挥了重要的作用。由于句法规则很难穷尽,而且对汉语真实语料的处