基于RF与LSSVM模型对非均衡高维小样本数据的分类研究

来源 :重庆理工大学 | 被引量 : 0次 | 上传用户：zhwenh_0421

【摘要】

：

在信息爆炸的新时代,由于全球科技与经济迅猛发展,数据充斥在各行各业,数据的结构也变得多样化。其中对于数据的分类最常见,伴随着数据分类的同时出现两大处理难点,一个是非

【作者】

：

王一超

【出处】

：

重庆理工大学

【发表日期】

：

2020年01期

【关键词】

：

高维非均衡数据随机森林模型标准粒子优化群算法(PSO) MOG算法 PDSSD-TSMOTE算法最小二乘支持向量机模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在信息爆炸的新时代,由于全球科技与经济迅猛发展,数据充斥在各行各业,数据的结构也变得多样化。其中对于数据的分类最常见,伴随着数据分类的同时出现两大处理难点,一个是非均衡问题,另一个就是高维问题。但是传统的数据方法在进行数据挖掘时,低维平衡数据被重点关注,传统分类方法有线性判别分析、Logistic判别模型、支持向量机算法、K近邻算法、决策树算法、随机森林算法、神经网络学习、等。但是目前各个领域充斥着大量高维非均衡数据,而传统方法对非均衡数据分类问题的关注比较缺失。目前对于非均衡数据分类时,由于数量本身的严重偏斜,分类器整体的分类准确度良好恰恰归功于多数类样本的正确分类,然而我们分类的目的往往是更重视少数样本的精度,所以运用常见的分类算法直接对非平衡数据集进行分类是不理想的;另一个高维数据的处理也是模型识别领域研究中的难点,从数据的特征集中甄别出必要的、具有代表性的、足以识别目标的最小特征子集,从而达到降低特征空间维度的目的。因此探究高维非均衡数据的分类处理涉及各个领域的发展。高维非均衡数据的处理与分类问题在数据挖掘方面尤为重要,本文针对处理高维非均衡数据的基础算法随机森林（Random Forests）算法以及过采样技术（Oversampling）的不足,提出了新的算法:首先利用粒子优化群算法（PSO）结合随机森林模型的特征选择标准基尼系数（Gini）与OOB估计,从而提出MOG算法,并用此算法对高维数据进行降维处理;其次用动态离差平方和（PDSSD）准则下的机器学习方法改进SMOTE算法,进而提出PDSSD-TSMOTE算法,并用此算法均衡数据结构;最后运用标准粒子群优化算法对最小二乘支持向量机（LSSVM）分类器进行改进,对整合后的数据进行分类,来验证本文提出数据整合算法的有效性,实验数据集为美国机器学习库（UCI）中的四个真实数据集。实验结果表明,运用本文提出的MOG-PDSSD-TSMOTE算法进行数据降维均衡处理,再采用PSO-LSSVM分类器进行数据分类,比直接对数据集Arrhythmia进行分类的⁶⁷0)值、⁸)0)（69）值以及(8(8(6(8值提升了15%、11.7%、8.2%;比直接对数据集Regular Colonoscopy进行分类的⁶⁷0)值、⁸)0)（69）值以及(8(8(6(8值提升了17.2%、12%、11.4%;比直接对数据集Voice back进行分类的⁶⁷0)值、⁸)0)（69）值以及(8(8(6(8值分别提升了21.1%、16.6%、13.5%。

其他文献

红色故乡情思

期刊

山东海域口虾蛄种群的遗传多样性研究

为探讨山东海域口虾蛄种群的遗传多样性,本研究对山东东营、烟台、长山岛、青岛、日照5个样地72个样本,通过线粒体COⅠ基因进行遗传多样性评价,共获得了72条580 bp的DNA序列,

期刊

口虾蛄种群遗传多样性

2009年肉鸡市场分析

2009年我国肉鸡行业将会走向何方？支撑上涨和下跌的因素将如何伴随2009年肉鸡行情？肉鸡行业在金融危机中将做何抉择？1、供给方面依据目前肉雏鸡补栏情况而定，由于受肉毛鸡价格低

期刊

肉鸡市场分析金融危机养殖户肉雏鸡存栏量行业

吐丝期玉米倒伏后地面高光谱特征参数分析

倒伏是玉米主要自然灾害之一,及时、准确地监测玉米倒伏的程度,对于玉米倒伏灾害的损失评估及防治有重要意义。设置玉米吐丝期不同倒伏程度的田间模拟试验,利用地面高光谱数

期刊

玉米吐丝期高光谱倒伏角度

湖南桃源枫树乡维吾尔族音乐文化发展研究

湖南枫树维吾尔族回族民族乡号称“维吾尔族第二故乡”，是除新疆外维吾尔族最大的聚居地，著名的历史学家、维吾尔族学者翦伯赞就出生于枫树。对湖南维吾尔族研究的兴起，始于改革

期刊

维吾尔族枫树湖南文化发展音乐桃源改革开放第二故乡

假想防卫过当的罪过形式与刑罚裁量

假想防卫过当指行为人因陷入错误认识而误信存在不法侵害,于是持防卫目的向假想的不法侵害来源实施了反击,可事实上不法侵害并不存在,但即使行为人的误信内容为真,也构成防卫

学位

假想防卫过当限制的二分说罪过形式刑罚裁量

不同干燥方式对酸菜粉品质及抗氧化性能的影响

实验考察了在冷冻干燥、喷雾干燥、真空干燥、微波真空干燥、热风干燥及挤压膨化等干燥方式下酸菜粉的物理特性、营养特性及抗氧化特性的变化。结果表明：冷冻干燥酸菜粉中乳酸

期刊

酸菜干制方法品质抗氧化性pickles drying methods quality inoxidability

甘肃经济社会发展与能源消耗对环境空气质量的影响研究

近年来,甘肃省持续强化大气污染治理工作,着力解决突出大气污染问题,不断完善监管机制,有效促进了环境空气质量整体好转,以省会兰州为代表的部分地区,探索总结了一批可复制可

学位

经济发展社会发展能源消耗环境空气质量

响应面法优化红阳猕猴桃花色苷提取工艺及抗氧化活性研究

为了研究红阳猕猴桃中花色苷提取的最佳工艺条件,以提取温度、液料比和提取时间为响应变量,以提取液吸光度为响应值,采用三因素三水平的响应面分析法进行试验。结果表明：红阳

期刊

红阳猕猴桃花色苷响应面分析抗氧化活性Hongyang kiwifruit anthocyanin response surface analysis a

应用于冷链的有机相变蓄冷剂的制备及性能研究

相变储能技术是能源科学技术领域的一个重要分支。在能量转换和利用的过程中,通常会出现供求之间在时间上和空间上不匹配的矛盾,如电力负荷的峰谷差,太阳能、风能和海洋能的

学位

相变材料差示扫描量热仪聚N-异丙基丙烯酰胺凝胶冷链运输

基于RF与LSSVM模型对非均衡高维小样本数据的分类研究

其他学术论文