基于RF与LSSVM模型对非均衡高维小样本数据的分类研究

来源 :重庆理工大学 | 被引量 : 0次 | 上传用户:zhwenh_0421
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息爆炸的新时代,由于全球科技与经济迅猛发展,数据充斥在各行各业,数据的结构也变得多样化。其中对于数据的分类最常见,伴随着数据分类的同时出现两大处理难点,一个是非均衡问题,另一个就是高维问题。但是传统的数据方法在进行数据挖掘时,低维平衡数据被重点关注,传统分类方法有线性判别分析、Logistic判别模型、支持向量机算法、K近邻算法、决策树算法、随机森林算法、神经网络学习、等。但是目前各个领域充斥着大量高维非均衡数据,而传统方法对非均衡数据分类问题的关注比较缺失。目前对于非均衡数据分类时,由于数量本身的严重偏斜,分类器整体的分类准确度良好恰恰归功于多数类样本的正确分类,然而我们分类的目的往往是更重视少数样本的精度,所以运用常见的分类算法直接对非平衡数据集进行分类是不理想的;另一个高维数据的处理也是模型识别领域研究中的难点,从数据的特征集中甄别出必要的、具有代表性的、足以识别目标的最小特征子集,从而达到降低特征空间维度的目的。因此探究高维非均衡数据的分类处理涉及各个领域的发展。高维非均衡数据的处理与分类问题在数据挖掘方面尤为重要,本文针对处理高维非均衡数据的基础算法随机森林(Random Forests)算法以及过采样技术(Oversampling)的不足,提出了新的算法:首先利用粒子优化群算法(PSO)结合随机森林模型的特征选择标准基尼系数(Gini)与OOB估计,从而提出MOG算法,并用此算法对高维数据进行降维处理;其次用动态离差平方和(PDSSD)准则下的机器学习方法改进SMOTE算法,进而提出PDSSD-TSMOTE算法,并用此算法均衡数据结构;最后运用标准粒子群优化算法对最小二乘支持向量机(LSSVM)分类器进行改进,对整合后的数据进行分类,来验证本文提出数据整合算法的有效性,实验数据集为美国机器学习库(UCI)中的四个真实数据集。实验结果表明,运用本文提出的MOG-PDSSD-TSMOTE算法进行数据降维均衡处理,再采用PSO-LSSVM分类器进行数据分类,比直接对数据集Arrhythmia进行分类的670)值、8)0)(69)值以及(8(8(6(8值提升了15%、11.7%、8.2%;比直接对数据集Regular Colonoscopy进行分类的670)值、8)0)(69)值以及(8(8(6(8值提升了17.2%、12%、11.4%;比直接对数据集Voice back进行分类的670)值、8)0)(69)值以及(8(8(6(8值分别提升了21.1%、16.6%、13.5%。
其他文献
期刊
为探讨山东海域口虾蛄种群的遗传多样性,本研究对山东东营、烟台、长山岛、青岛、日照5个样地72个样本,通过线粒体COⅠ基因进行遗传多样性评价,共获得了72条580 bp的DNA序列,
2009年我国肉鸡行业将会走向何方?支撑上涨和下跌的因素将如何伴随2009年肉鸡行情?肉鸡行业在金融危机中将做何抉择?1、供给方面 依据目前肉雏鸡补栏情况而定,由于受肉毛鸡价格低
倒伏是玉米主要自然灾害之一,及时、准确地监测玉米倒伏的程度,对于玉米倒伏灾害的损失评估及防治有重要意义。设置玉米吐丝期不同倒伏程度的田间模拟试验,利用地面高光谱数
湖南枫树维吾尔族回族民族乡号称“维吾尔族第二故乡”,是除新疆外维吾尔族最大的聚居地,著名的历史学家、维吾尔族学者翦伯赞就出生于枫树。对湖南维吾尔族研究的兴起,始于改革
假想防卫过当指行为人因陷入错误认识而误信存在不法侵害,于是持防卫目的向假想的不法侵害来源实施了反击,可事实上不法侵害并不存在,但即使行为人的误信内容为真,也构成防卫
实验考察了在冷冻干燥、喷雾干燥、真空干燥、微波真空干燥、热风干燥及挤压膨化等干燥方式下酸菜粉的物理特性、营养特性及抗氧化特性的变化。结果表明:冷冻干燥酸菜粉中乳酸
近年来,甘肃省持续强化大气污染治理工作,着力解决突出大气污染问题,不断完善监管机制,有效促进了环境空气质量整体好转,以省会兰州为代表的部分地区,探索总结了一批可复制可
为了研究红阳猕猴桃中花色苷提取的最佳工艺条件,以提取温度、液料比和提取时间为响应变量,以提取液吸光度为响应值,采用三因素三水平的响应面分析法进行试验。结果表明:红阳
相变储能技术是能源科学技术领域的一个重要分支。在能量转换和利用的过程中,通常会出现供求之间在时间上和空间上不匹配的矛盾,如电力负荷的峰谷差,太阳能、风能和海洋能的