支持向量机分类及核聚类中的几何算法研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:lok119119119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(Support Vector Machine,简称SVM)是机器学习中一种重要方法。该方法建立在统计学习理论的基础上,是结构风险最小化原则的具体实现。SVM集成了间隔最大化、核理论和正则化技术,已在实际应用中,如人脸检测、目标识别以及信息检索等领域显示出优良的性能;然而,对于数据量较大的情况,支持向量机方法存在运行速度缓慢的不足。这很大程度上制约了算法在大样本中的应用。因此,支持向量机算法的研究具有重要的理论意义和巨大的实用价值。由于SVM有明确的几何解释,使得几何算法在SVM这一特定的研究领域显示出良好的研究前景。本文主要围绕支持向量机分类及核聚类中的几何算法研究展开了较为深入的工作。论文的主要内容如下:   1.一种快速收敛的Gilben算法。   Gilbert算法在很多情况下由于振荡引起收敛缓慢。针对振荡问题,本文作者提出一种改进的Gilben算法。证明了:(1)Gilbert算法的收敛点在振荡点的凸组合上;(2)振荡点在凸包的支持超平面上。基于理论分析,给出一种改进的Gilbert算法。与原算法相比,改进算法具有快速收敛的优点。Gilbert算法在SVM的研究已有相关工作,如S.Martin将角度收敛的Gilbert算法用于分类。本文方法与S.Martin的方法在算法本质上是一致的。本文针对“振荡”问题进行了深入的理论研究,并取得了一定的初步成果。我们还给出改进的Gilbert算法与SVM的联系。   2.基于凸包可见面的支持向量机数据约简方法。   支持向量机的增量学习中的一个关键问题是如何有效地进行数据约简。本工作提出一种基于凸包可见面的支持向量机数据约简方法。其具体思想是:每一步保留凸包可见面上的样本点,得到约简集。证明了在SVM分类中,舍去正负样本构成的凸包内部的样本点以及凸包非可见面上的样本点不影响分类正确率。设第k步正负样本构成的凸包非可见面上的样本点在第k+1步仍在非可见面上,则在SVM的增量学习中,保留正、负样本构成的凸包可见面上的样本点,去除其余点,分类性能不变。由于凸包可见面上的样本点不易直接求得,本文作者采用交替投影算法来近似求解。人工数据集和标准测试集的实验表明本文方法具有良好的约简率。   3.核向量机与支持向量机几何关系的研究。   核向量机是最新提出的一种大数据的快速分类算法。它将分类问题转化为一个最小包含球问题,由最小包含球近似算法快速求解。本工作中,分析了核向量机和传统支持向量机的几何关系,得到核向量机中最小包含球球面上的点与支持向量机最优分类面上的点的关系。几何关系的提出有助于对核向量机分类的理解。   4.将近似最小包含球的思想引入核聚类中,得到基于核集合的快速核聚类算法。   已有核聚类算法收敛缓慢、计算效率低,难以得到实际应用。本工作中,通过计算几何中的近似最小包含球算法求解核聚类中的二次优化问题。得到的快速核聚类算法的时间复杂度与样本个数成线性关系。在人工数据集和标准测试集的实验表明,算法有较高的聚类正确率,并能快速收敛。算法能够有效地应用于图像分割中。
其他文献
随着电子产业的高速发展和FPGA(Field Programmable Gate Array,现场可编程门阵列)技术应用更加广泛,基于SOPC(System On a Programmable Chip,片上可编程系统)技术的研究与应用为嵌
可逆数据隐藏算法是一种允许在数字作品(如图像、音频等)中嵌入秘密信息,并能无损提取所嵌入的信息且完全恢复原始数字作品数据的技术。这个技术解决了人们对早期有损数据隐
调制识别是通信环境中信号处理的关键问题。而大部分调制识别技术是建立在先验知识的前提下进行的,并且需要较高的信噪比才能达到比较理想的识别效果。但是一般情况下获取的都
无线Mesh网络是一种具有自组织能力、高覆盖率、低传输功率的多跳分布式网络,是下一代移动网络中极具潜力的通信技术。由于链路间的干扰,无线Mesh网络的容量随节点数增多和平均
智能检测是计算机通过智能传感器或敏感元件从客观事物中获取信息,借以认识客观事物并加以判断或分类的一种综合性的科学方法。信息获取是智能检测系统最关键的环节之一,而机器
无线传感器网络(Wireless Sensor Networks,WSN)是集数据收集、数据处理和数据传输于一体的复杂系统,其中,数据收集的方式和数据传输过程中的能耗管理是制约无线传感器网络应用
机器翻译通过计算机实现不同自然语言之间的转换,具有很高的应用价值。近年来,机器翻译研究取得了长足的进步,译文质量不断提高,尤其是基于神经网络的机器翻译的兴起,使得译文的流
目前国内大多数制糖企业在煮糖过程仍然依赖人工目测评估晶粒的生长情况,粗略估算各阶段晶粒的粒度、各类蔗糖颗粒百分比。针对人工目测存在自动化程度低、主观因素大的问题,本
对于智能机器人来说,可移动是一个重要的特性。随着相关技术,如电气机械技术、计算机技术、电子技术的飞速进步,移动机器人发展的硬件条件瓶颈基本被突破,包括驱动系统、计算能力
水下通信网络是通过水底传感器、无线浮标等组成,通过声音和无线电进行通信,可接入到现有的立体信息网中,从而形成真正的覆盖全球的立体信息网。由于水下传感器网络“水下监视系