基于聚类融合投票和SVM的非平衡数据分类方法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户：surfing203

【摘要】

：

无论在现实生活还是网络世界都存在着大量的数据，但是数据不代表信息和知识，因此获取有用数据的数据挖掘技术应运而生。分类是数据挖掘中非常关键的任务之一，通过在训练数据集上

【作者】

：

唐睿

【机构】

：

江苏大学

【出处】

：

江苏大学

【发表日期】

：

2013年期

【关键词】

：

非平衡数据投票机制聚类融合支持向量机分类方法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

无论在现实生活还是网络世界都存在着大量的数据，但是数据不代表信息和知识，因此获取有用数据的数据挖掘技术应运而生。分类是数据挖掘中非常关键的任务之一，通过在训练数据集上构建分类模型，利用所构建的模型对原始数据进行分类。目前分类面临的数据大多数建立在各类数据平衡分布的假设之下，然而在人们的现实生活和实践生产中非平衡数据广泛地存在，因此研究非平衡数据的分类学习有十分重要的学术意义和应用价值。　　论文介绍了非平衡数据学习的目的、意义和研究现状，并针对非平衡数据自身的特点以及现有的分类方法存在的问题，提出一种基于聚类融合投票机制和支持向量机的非平衡数据分类学习方法，并通过仿真实验证明了方法的有效性。本文的主要工作如下:　　 (1)分析了非平衡数据分类的意义、研究现状以及面临的问题，归纳总结了各种非平衡数据的分类方法，重点阐述了基于聚类和支持向量机的非平衡数据分类方法，介绍了几个重要的非平衡数据分类性能指标。　　 (2)提出了一种基于聚类融合投票机制的非平衡数据分类方法CFVM，该方法通过重复使用一趟聚类算法来划分数据，得到不同的聚类结果，对此进行投票处理得到新的聚类簇，根据聚类后簇的特征与数据倾斜程度确定抽样比例，确保了样本能较好的反映了原始数据的分布特性。实验结果表明方法CFVM在少数类的识别率方面有所提高。　　 (3)提出了一种基于粒度支持向量机的非平衡数据分类方法GSVM，该方法根据粒度计算思想对多数类样本进行粒划分并从中获取信息粒，以使数据趋于平衡，通过这些信息粒来寻找局部支持向量，并在这些局部支持向量和少数类样本上进行有效学习。　　 (4)提出一种聚类融合投票机制与支持向量机的非平衡数据分类学习方法CVSVM，该方法采用投票聚类的方法对训练集中的多数类样本进行划分，将这些划分子集与少数类样本结合组成一系列平衡的分类子问题，使用GSVM方法分别训练各子问题，并将各子问题的分类结果进行有效集成。

其他文献

基于自适应控制列车ATO调速系统的若干研究

随着我国城市化进程的加快,城市规模越来越大,人口越来越密集。轨道交通具有载客量大、速度快、安全、准时、环保、节能等诸多优点,对于缓解城市交通压力、改善城市环境等具

学位

城市轨道交通列车自动驾驶(ATO)速度跟踪精确停车特征建模

基于ARM的巡查报警系统设计

在监狱巡查过程中,目前巡查人员大多数配备的是一种类似“巡更棒”的安防设备。该设备不能记录和判别巡查人员是否按规定时间定时的对监室进行巡查,甚至会对“巡更棒”进行损

学位

安防ARM无线以太网

超高压压力曲线控制动态补偿方法的研究

随着我国社会发展，科技进步已进入稳定增长的轨道，新材料、新工艺、新装备的研发也步入发展的快车道，对于等静压技术而言，由于其先进的技术特点，压制成型制品的优异性能，更是一直以

学位

温等静压机压力曲线工作原理动态补偿BP神经网络自适应控制算法

基于可拓检测和模糊聚类算法颅内血肿图像分割方法研究

人脑是人类精神和智力活动的器官,是中枢神经系统的最高级部分,是人类所有活动的中枢,脑的健康关系到人的生活质量。由于打架、车祸、意外事故等引起的颅内血肿在脑部疾病中

学位

可拓检测物元聚焦模糊C均值(FCM)聚类算法颅内血肿CT医学图像分割

楼宇环境与设备集群测控技术研究与开发

智能建筑作为未来建筑发展的方向，融汇了现代建筑技术、现代电脑技术、现代通讯技术和现代控制技术，是集现代科学技术之大成的产物。楼宇自动化作为智能建筑中最重要的子系统，涵

学位

集群控制以太网LonWorks总线楼宇环境设备集群测控技术

基于同步误差的六自由度并联机构光滑滑模控制系统研究

与串联机构相对比，并联机构具有刚度大、无累积误差、结构抗振性及承载能力强、运动惯量小及响应速度快等优点，得到越来越广泛的应用，可构成各种应用的并联机器人，目前己成为机器

学位

六自由度并联机构同步误差光滑滑模控制系统协调运动

基于一类组合模型的PCA综合监控统计量预测方法

传统的PCA技术可以对工业过程当前的状况进行监控，但难以预测系统未来的运行情况。为此，论文提出建立组合预测模型，实现对PCA综合监控统计量的预测。首先，改进了最小二乘支持向量

学位

PCA预测组合模型LSSVMGM(1，1)

面向领域的多阶段融合图像分类方法研究

图像检索技术涉及多项应用领域，除通用的图像检索系统之外，越来越多特定领域的图像检索系统正在涌现，如Yottalook医学图像检索系统等。图像分类是图像检索系统中最为基础性的工

学位

图像分类面向领域特征提取结构化局部边缘模式

立式袋成型包装机包材输送系统设计和软件开发

随着人们对包装需求的多样化和个性化，包装设备尤其是自动化包装设备，向着高生产率、单机多功能、多功能组成生产线、新技术应用等方向发展。立式袋成型包装机是包装设备中应用

学位

立式袋成型包装机Modbus通信协议数据处理包材输送系统软件开发

交通标志检测与识别鲁棒算法研究

在无人车自主导航中，基于视觉的环境感知是无人车信息处理技术的关键问题之一，而交通标志识别系统是无人车视觉系统的一项重要任务。　　本课题为提高交通标志识别系统的鲁棒性

学位

颜色矫正自适应算法纹理特征融合识别反馈交通标志检测

基于聚类融合投票和SVM的非平衡数据分类方法研究

其他学术论文