基于聚类融合投票和SVM的非平衡数据分类方法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:surfing203
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无论在现实生活还是网络世界都存在着大量的数据,但是数据不代表信息和知识,因此获取有用数据的数据挖掘技术应运而生。分类是数据挖掘中非常关键的任务之一,通过在训练数据集上构建分类模型,利用所构建的模型对原始数据进行分类。目前分类面临的数据大多数建立在各类数据平衡分布的假设之下,然而在人们的现实生活和实践生产中非平衡数据广泛地存在,因此研究非平衡数据的分类学习有十分重要的学术意义和应用价值。   论文介绍了非平衡数据学习的目的、意义和研究现状,并针对非平衡数据自身的特点以及现有的分类方法存在的问题,提出一种基于聚类融合投票机制和支持向量机的非平衡数据分类学习方法,并通过仿真实验证明了方法的有效性。本文的主要工作如下:   (1)分析了非平衡数据分类的意义、研究现状以及面临的问题,归纳总结了各种非平衡数据的分类方法,重点阐述了基于聚类和支持向量机的非平衡数据分类方法,介绍了几个重要的非平衡数据分类性能指标。   (2)提出了一种基于聚类融合投票机制的非平衡数据分类方法CFVM,该方法通过重复使用一趟聚类算法来划分数据,得到不同的聚类结果,对此进行投票处理得到新的聚类簇,根据聚类后簇的特征与数据倾斜程度确定抽样比例,确保了样本能较好的反映了原始数据的分布特性。实验结果表明方法CFVM在少数类的识别率方面有所提高。   (3)提出了一种基于粒度支持向量机的非平衡数据分类方法GSVM,该方法根据粒度计算思想对多数类样本进行粒划分并从中获取信息粒,以使数据趋于平衡,通过这些信息粒来寻找局部支持向量,并在这些局部支持向量和少数类样本上进行有效学习。   (4)提出一种聚类融合投票机制与支持向量机的非平衡数据分类学习方法CVSVM,该方法采用投票聚类的方法对训练集中的多数类样本进行划分,将这些划分子集与少数类样本结合组成一系列平衡的分类子问题,使用GSVM方法分别训练各子问题,并将各子问题的分类结果进行有效集成。
其他文献
随着我国城市化进程的加快,城市规模越来越大,人口越来越密集。轨道交通具有载客量大、速度快、安全、准时、环保、节能等诸多优点,对于缓解城市交通压力、改善城市环境等具
在监狱巡查过程中,目前巡查人员大多数配备的是一种类似“巡更棒”的安防设备。该设备不能记录和判别巡查人员是否按规定时间定时的对监室进行巡查,甚至会对“巡更棒”进行损
随着我国社会发展,科技进步已进入稳定增长的轨道,新材料、新工艺、新装备的研发也步入发展的快车道,对于等静压技术而言,由于其先进的技术特点,压制成型制品的优异性能,更是一直以
人脑是人类精神和智力活动的器官,是中枢神经系统的最高级部分,是人类所有活动的中枢,脑的健康关系到人的生活质量。由于打架、车祸、意外事故等引起的颅内血肿在脑部疾病中
智能建筑作为未来建筑发展的方向,融汇了现代建筑技术、现代电脑技术、现代通讯技术和现代控制技术,是集现代科学技术之大成的产物。楼宇自动化作为智能建筑中最重要的子系统,涵
传统的PCA技术可以对工业过程当前的状况进行监控,但难以预测系统未来的运行情况。为此,论文提出建立组合预测模型,实现对PCA综合监控统计量的预测。首先,改进了最小二乘支持向量
随着人们对包装需求的多样化和个性化,包装设备尤其是自动化包装设备,向着高生产率、单机多功能、多功能组成生产线、新技术应用等方向发展。立式袋成型包装机是包装设备中应用