论文部分内容阅读
在机器学习领域中,模式分类问题一直是研究主流。分类问题主要可以分为两大类:一个是多分类问题包括两类分类问题;另一类是单类分类问题。由于复杂度或代价的原因,在很多情况下我们只能获取一个类别的数据信息,所以只能用这一类别样本进行训练学习,称之为单类分类问题。 本文研究的内容是基于支持向量数据描述(Support Vector Data Description, SVDD)的分类器,它是一个被广泛应用的单类分类器。SVDD的核心思想是通过使用核方法把训练样本从原始空间映射到一个新的高维空间,从而构建一个超平面。然而,传统的SVDD并没有考虑到样本的结构信息,忽视了样本分布的问题,空间位置不同的样本对于分类边界的贡献度是不同的,本文认为位于边界的样本点对于分类边界的影响程度比类内样本点高。因此针对单类SVDD,本文提出了基于边界的模糊支持向量数据算法;针对SVDD两类模型,提出了基于类心距离的模糊支持向量数据算法。这两个算法的共同点都是关注于数据集的边界样本点。本文主要贡献在于: 第一,SVDD单类模型并没有考虑到样本分布的问题,所有样本对于分类边界的贡献度是相同的,由此导致了SVDD对于噪声点敏感度高,当处理噪声点较多的数据集时,分类效果不佳。基于此,本文提出了基于边界的模糊SVDD算法,通过自定义的全局-局部中心距离算法来判断样本点是否为边界样本点,由于SVDD是基于支持向量来构建分类边界,而支持向量又处于边界的位置,因此本文提高边界样本点的权重,降低类内样本点的权重,同时降低了噪声点的影响。另一方面,样本数量不足会导致不充分学习,从而影响分类器的分类效果。不平衡数据集中,少数类由于样本数量不足,SVDD对其进行分类,效果不佳。由于本文主要关注于边界样本点,能够降低样本数量不足导致的不充分学习带来的影响。实验结果表明此算法提高了分类精度,有较高的可行性。 第二,SVDD只有一个类别的数据信息进行训练学习。研究表明,加入负类样本进行训练能够提高SVDD的分类精度,这就是SVDD带负类模型。然而,同SVDD单类模型一样,SVDD带负类模型也没有考虑到样本分布问题,对噪声点敏感度较大。基于相同的考虑,本文提出了基于类心距离的模糊SVDD算法,重点也是基于边界样本点,同样选择加强边界样本点的权重,降低两类类内样本点的权重来降低噪声点的影响。与SVDD单类模型不同的是,本文采用样本到两类类中心距离来判断边界样本点。实验结果显示此算法能有效提高分类的精度,有较高的适用性。 本文基于传统SVDD没有考虑样本分布的原因,分别对SVDD单类模型和带负类类模型进行样本模糊化处理,提高分类的精度,为SVDD处理单类和多类问题提供了新的思路,而且基于边界的思想能够运用到其它分类器的实际应用研究中,有较大的启发性和推广型。