论文部分内容阅读
支持向量机(SVM)是近年来发展起来的基于小样本的新的通用学习技术。该技术具有坚实的理论基础、强泛化能力,分类精度高且能收敛至全局最优解。但它是二值分类器,不适用于多值分类场合及处理海量数据。粗集理论则具有处理和约简大数据量的优势,但分类精度不如SVM方法。本文利用粗集理论对数据进行预分类,在此基础上提出两种二值分类数据组合方法,然后,再利用SVM两两分类。这样,既解决了多值分类问题,提高了分类精度,又实现了数据压缩。其中利用主属性中不可分辨关系(或相近关系)预分类的方法,概念清晰,易于理解、操作,数据压缩量大。 以某属性的等价类(相近类)组成的子集作为SVM的训练集预分类的方法如下。 (1)将连续性训练数据离散化。 (2)去掉离散化后不可分辨的属性。 (3)将决策表进行属性约简,值约简。 (4)计算每个属性的等价类数目,选择等价类数目最多的属性作为主属性。如有多个属性的等价类都具有最多的等价类数目,则选择等价类中包含类别数最少的属性。 (5)让每一个等价类(或相近类)作为一个子集,作为SVM的训练集。得出SVM决策函数。 (6)在每个子集所在离散空间用相应的决策函数进行分类。 本算法利用一个主属性的不可分辨值将样本空间分成多个子集,然后在这些子集中再进行SVM测试。这样既压缩了数据,又保证了分类精度。 通过仿真试验,表明算法是可行的。