论文部分内容阅读
在模式识别、机器学习以及数据挖掘中,分类是一个基本而又重要的问题。作为模式分类的研究方法之一的支持向量机技术近来也得到广泛的研究和应用。进行分类时,我们必备的两个条件,一个是分类器,另一个是数据集。在实际的应用中,由于获取数据的渠道和数据建模的差异等原因,人们所能收集到的大量信息往往是不完整的,存在缺少的特征或者是非均衡的,统称为缺省数据集。对特征缺少的数据集进行分类,目前的处理方法主要有直接删除法或者空值填充法;对于不平衡的数据,传统的方法是对较少的一类进行人为重采样或者对较多的一类进行删除,以此来减弱训练样本的不均衡性,但是这些修复方法会在一定程度上降低分类的准确性,并没有从根本上进行算法的改进。而且无论通过哪种方式修正,都无法避免主观因素对原系统的影响,并且花费的代价很大。缺省数据集分类算法的探索是随着数据获取、机器学习和信息检索的发展而出现的问题,是一个比较新的课题,国内外对该问题的研究还不成熟,但是它却非常具有现实意义,尤其是在容易丢失特征的车牌识别、语音识别、生物认证、医疗诊断、机器故障检测等领域具有十分广泛的应用前景。本文在对特征缺少和不平衡数据集的现有理论和算法进行回顾、探讨的基础上,有针对的提出了基于支持向量机的新算法,并通过实验证明。主要工作总结如下:第一部分为全文的绪论,对模式识别技术的发展和基于缺省数据集的分类现状进行了分析和综述。第二部分归纳简述了支持向量机的理论基础知识,包括机器学习的基本问题、统计学习理论以及传统支持向量机的基本算法和改进算法等。第三部分针对特征缺少数据的分类问题,阐述和分析了特征缺少的定义、特征缺少的产生机制以及处理准则,对当前处理特征缺少的研究成果进行分析;提出了基于最大间隔和最小类内方差的处理不完整数据的支持向量机方法,并利用UCI数据库中的数据进行了仿真实验。第四部分是对于非均衡数据集的分类问题的探讨,简单介绍了不平衡数据集的定义、特点及传统处理方法,并在现阶段研究成果的基础上,结合传统的一类支持向量机和两类分类算法提出了基于少量异常训练数据的最大间隔支持向量机算法,引入超平面与正负类之间的间隔,从而实现了有效利用少量异常数据进行新奇检测,并用医疗诊断,故障检测等领域的数据加以实验,证明了算法的有效性。第五部分对全文内容进行总结,提出了现有算法的不足之处并对以后的工作进行展望。