论文部分内容阅读
在信息爆炸的新时代,由于全球科技与经济迅猛发展,数据充斥在各行各业,数据的结构也变得多样化。其中对于数据的分类最常见,伴随着数据分类的同时出现两大处理难点,一个是非均衡问题,另一个就是高维问题。但是传统的数据方法在进行数据挖掘时,低维平衡数据被重点关注,传统分类方法有线性判别分析、Logistic判别模型、支持向量机算法、K近邻算法、决策树算法、随机森林算法、神经网络学习、等。但是目前各个领域充斥着大量高维非均衡数据,而传统方法对非均衡数据分类问题的关注比较缺失。目前对于非均衡数据分类时,由于数量本身的严重偏斜,分类器整体的分类准确度良好恰恰归功于多数类样本的正确分类,然而我们分类的目的往往是更重视少数样本的精度,所以运用常见的分类算法直接对非平衡数据集进行分类是不理想的;另一个高维数据的处理也是模型识别领域研究中的难点,从数据的特征集中甄别出必要的、具有代表性的、足以识别目标的最小特征子集,从而达到降低特征空间维度的目的。因此探究高维非均衡数据的分类处理涉及各个领域的发展。高维非均衡数据的处理与分类问题在数据挖掘方面尤为重要,本文针对处理高维非均衡数据的基础算法随机森林(Random Forests)算法以及过采样技术(Oversampling)的不足,提出了新的算法:首先利用粒子优化群算法(PSO)结合随机森林模型的特征选择标准基尼系数(Gini)与OOB估计,从而提出MOG算法,并用此算法对高维数据进行降维处理;其次用动态离差平方和(PDSSD)准则下的机器学习方法改进SMOTE算法,进而提出PDSSD-TSMOTE算法,并用此算法均衡数据结构;最后运用标准粒子群优化算法对最小二乘支持向量机(LSSVM)分类器进行改进,对整合后的数据进行分类,来验证本文提出数据整合算法的有效性,实验数据集为美国机器学习库(UCI)中的四个真实数据集。实验结果表明,运用本文提出的MOG-PDSSD-TSMOTE算法进行数据降维均衡处理,再采用PSO-LSSVM分类器进行数据分类,比直接对数据集Arrhythmia进行分类的670)值、8)0)(69)值以及(8(8(6(8值提升了15%、11.7%、8.2%;比直接对数据集Regular Colonoscopy进行分类的670)值、8)0)(69)值以及(8(8(6(8值提升了17.2%、12%、11.4%;比直接对数据集Voice back进行分类的670)值、8)0)(69)值以及(8(8(6(8值分别提升了21.1%、16.6%、13.5%。