论文部分内容阅读
近年来,大规模不平衡数据集的分类已经成为机器学习领域的一个难点与热点,越来越多的专家专注于这一方面的研究。大规模指待学习的样本数量非常大,通常情况有几万几十万个甚至几百万个样本。大规模数据集学习需要大量的内存并耗费非常多的时间。不平衡数据集是指某类样本数量明显少于其他类样本的数据集。现实世界中普遍存在着类别分布不平衡的数据,使用传统的机器学习分类算法对不平衡数据进行分类时会倾向于多数类,对多数类有较高的识别率,而导致少数类的识别率很低。然而在许多实际的应用中,少数类样本非常重要,错分会造成重大损失。支持向量机(SVM)是Vapnik等人提出的一类新型机器学习方法。其学习性能出色,在很多领域都得到了成功的应用。本文将支持向量机用于大规模不平衡数据分类问题,提出自己的方法提高分类的速度与精度。
本文首先对大规模不平衡数据集的分类问题进行了简单介绍,接着阐述了支持向量机的基本原理,然后又介绍支持向量机处理大规模数据和不平衡数据的常用方法,最后提出将批量学习与双向采样相结合的支持向量机(BLBS-SVM):批量读入数据,判断正负类样本数之比是否超过设定的不平衡比,如超过则对多数类样本用CNN算法向下采样,对少数类样本进行SMOTE向上采样,然后使用带不同惩罚因子的C-SVM算法学习,记录支持向量,读入下一批数据学习直至所有样本学习完毕。本文在公共数据集上进行了实验,实验结果表明,本文的方法可以提高大规模不平衡数据集分类效率和精度。