论文部分内容阅读
支持向量机和粗糙集理论是当今人工智能和机器学习领域的研究热点。支持向量机以结构风险最小化原则为分类准则,利用靠近分类边界的支持向量构造最优分类超平面。对分类训练有贡献的只有支持向量,但是求解支持向量机却需要整个训练集,因此,当训练集规模较大时,支持向量机训练时具有存储空间需求量大,寻优速度缓慢,需要花费大量时间等缺点。针对这一问题,本文提出了一种基于粗糙集样例约简支持向量机的方法。其基本思想是因为支持向量大多位于分类边界附近,所以可利用相容粗糙集方法选出边界域中的样例作为候选支持向量。另外,粗糙集还能在保持分类能力不变的前提下,通过约简,删除样例集中的冗余属性。因此,本文提出的方法能同时约简属性和样例。具体地,首先采用相容粗糙集理论对样例集进行属性约简和样例约简,然后用约简后的样例集训练支持向量机。另外,本文还提出了基于样例选取的属性约简算法。实验结果证实了这种方法的有效性,特别对大型数据库,本文提出的算法能有效地减少存储空间和执行时间。