论文部分内容阅读
无论在现实生活还是网络世界都存在着大量的数据,但是数据不代表信息和知识,因此获取有用数据的数据挖掘技术应运而生。分类是数据挖掘中非常关键的任务之一,通过在训练数据集上构建分类模型,利用所构建的模型对原始数据进行分类。目前分类面临的数据大多数建立在各类数据平衡分布的假设之下,然而在人们的现实生活和实践生产中非平衡数据广泛地存在,因此研究非平衡数据的分类学习有十分重要的学术意义和应用价值。
论文介绍了非平衡数据学习的目的、意义和研究现状,并针对非平衡数据自身的特点以及现有的分类方法存在的问题,提出一种基于聚类融合投票机制和支持向量机的非平衡数据分类学习方法,并通过仿真实验证明了方法的有效性。本文的主要工作如下:
(1)分析了非平衡数据分类的意义、研究现状以及面临的问题,归纳总结了各种非平衡数据的分类方法,重点阐述了基于聚类和支持向量机的非平衡数据分类方法,介绍了几个重要的非平衡数据分类性能指标。
(2)提出了一种基于聚类融合投票机制的非平衡数据分类方法CFVM,该方法通过重复使用一趟聚类算法来划分数据,得到不同的聚类结果,对此进行投票处理得到新的聚类簇,根据聚类后簇的特征与数据倾斜程度确定抽样比例,确保了样本能较好的反映了原始数据的分布特性。实验结果表明方法CFVM在少数类的识别率方面有所提高。
(3)提出了一种基于粒度支持向量机的非平衡数据分类方法GSVM,该方法根据粒度计算思想对多数类样本进行粒划分并从中获取信息粒,以使数据趋于平衡,通过这些信息粒来寻找局部支持向量,并在这些局部支持向量和少数类样本上进行有效学习。
(4)提出一种聚类融合投票机制与支持向量机的非平衡数据分类学习方法CVSVM,该方法采用投票聚类的方法对训练集中的多数类样本进行划分,将这些划分子集与少数类样本结合组成一系列平衡的分类子问题,使用GSVM方法分别训练各子问题,并将各子问题的分类结果进行有效集成。