论文部分内容阅读
支持向量机(Support Vector Machine,简称SVM)是机器学习中一种重要方法。该方法建立在统计学习理论的基础上,是结构风险最小化原则的具体实现。SVM集成了间隔最大化、核理论和正则化技术,已在实际应用中,如人脸检测、目标识别以及信息检索等领域显示出优良的性能;然而,对于数据量较大的情况,支持向量机方法存在运行速度缓慢的不足。这很大程度上制约了算法在大样本中的应用。因此,支持向量机算法的研究具有重要的理论意义和巨大的实用价值。由于SVM有明确的几何解释,使得几何算法在SVM这一特定的研究领域显示出良好的研究前景。本文主要围绕支持向量机分类及核聚类中的几何算法研究展开了较为深入的工作。论文的主要内容如下:
1.一种快速收敛的Gilben算法。
Gilbert算法在很多情况下由于振荡引起收敛缓慢。针对振荡问题,本文作者提出一种改进的Gilben算法。证明了:(1)Gilbert算法的收敛点在振荡点的凸组合上;(2)振荡点在凸包的支持超平面上。基于理论分析,给出一种改进的Gilbert算法。与原算法相比,改进算法具有快速收敛的优点。Gilbert算法在SVM的研究已有相关工作,如S.Martin将角度收敛的Gilbert算法用于分类。本文方法与S.Martin的方法在算法本质上是一致的。本文针对“振荡”问题进行了深入的理论研究,并取得了一定的初步成果。我们还给出改进的Gilbert算法与SVM的联系。
2.基于凸包可见面的支持向量机数据约简方法。
支持向量机的增量学习中的一个关键问题是如何有效地进行数据约简。本工作提出一种基于凸包可见面的支持向量机数据约简方法。其具体思想是:每一步保留凸包可见面上的样本点,得到约简集。证明了在SVM分类中,舍去正负样本构成的凸包内部的样本点以及凸包非可见面上的样本点不影响分类正确率。设第k步正负样本构成的凸包非可见面上的样本点在第k+1步仍在非可见面上,则在SVM的增量学习中,保留正、负样本构成的凸包可见面上的样本点,去除其余点,分类性能不变。由于凸包可见面上的样本点不易直接求得,本文作者采用交替投影算法来近似求解。人工数据集和标准测试集的实验表明本文方法具有良好的约简率。
3.核向量机与支持向量机几何关系的研究。
核向量机是最新提出的一种大数据的快速分类算法。它将分类问题转化为一个最小包含球问题,由最小包含球近似算法快速求解。本工作中,分析了核向量机和传统支持向量机的几何关系,得到核向量机中最小包含球球面上的点与支持向量机最优分类面上的点的关系。几何关系的提出有助于对核向量机分类的理解。
4.将近似最小包含球的思想引入核聚类中,得到基于核集合的快速核聚类算法。
已有核聚类算法收敛缓慢、计算效率低,难以得到实际应用。本工作中,通过计算几何中的近似最小包含球算法求解核聚类中的二次优化问题。得到的快速核聚类算法的时间复杂度与样本个数成线性关系。在人工数据集和标准测试集的实验表明,算法有较高的聚类正确率,并能快速收敛。算法能够有效地应用于图像分割中。