基于支持向量机的在线分类算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：songyonghuan

【摘要】

：

在线学习能够有效处理实时数据流和大规模数据，是机器学习领域的一个研究热点。在线学习一般指模型或分类器根据实时获取的新样本和反馈信息不断地进行更新学习，从而使得模型的

【作者】

：

丁曙光

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

在线学习支持向量机在线分类算法半监督学习模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在线学习能够有效处理实时数据流和大规模数据，是机器学习领域的一个研究热点。在线学习一般指模型或分类器根据实时获取的新样本和反馈信息不断地进行更新学习，从而使得模型的泛化能力或分类器的预测精度能够增量式地提高。在线学习算法针对不同的任务可以分为不同的大类:在线监督学习，在线半监督学习和在线无监督学习算法。在线学习算法通常有以下优点:1）执行速度快;2）适应力强，可以有效捕捉在线动态数据流的变化;3）所需要的存储空间小;4）易于执行等。　　从统计学习理论角度看，支持向量机(SVM)是结构风险最小化原则的具体实现，即在模型的复杂度和经验损失之间进行折衷，从而有效地避免模型的过拟合。由于其理论的完备性以及其求解算法的快速发展，SVM在诸多领域得到了广泛的应用，且基于SVM的在线分类算法也得到越来越多的关注。　　本文基于传统的SVM模型以及由SVM模型诱导的双支持向量机(TWSVM)模型和拉普拉斯支持向量机(LapSVM)模型，研究在线监督学习和在线半监督学习算法。本论文的主要工作包括三个部分:　　1、提出一种基于快速凸包选点方法的在线分类算法。利用凸包选点方法去除冗余样本点以进行快速训练是在线分类中一个重要且有效的方法。本文提出一种基于快速凸包选点方法的在线SVM算法。该方法利用凸包分解和投影方法，提高了凸包问题的求解效率。另外，针对高维问题，通过引入近似凸包方法，能够删除更多的非重要样本。同时，通过去除异常点和引入维数转换算法，提高了该方法的鲁棒性和适用性。本文还在理论上给出了基于近似凸包的SVM和基于所有训练样本的SVM之间差别的上界。在模拟数据集和真实数据集上的实验验证了该算法的可靠性和有效性。　　2、提出一种基于非平行超平面的在线分类算法。SVM旨在求解两个平行超平面，使得两个平行超平面之间的间隔最大化。然而，实际中数据复杂，可能包含大量噪声，不能完全满足超平面平行的约束。为此，本文建立了一种基于非平行超平面的在线分类模型，并在理论上给出了模型的解析解。此外，通过简化模型求解中的矩阵求逆运算，提高了模型的计算效率。实验表明提出的算法具有很好的精度和收敛效果。　　3、提出一种基于流形正则化的在线半监督学习模型。在许多应用问题中，新样本的标签在在线过程中不可知或非常零散地被获取。而传统的在线监督学习算法只根据有标签样本进行训练，这造成了无标签样本信息的浪费以及模型的不稳定性。为了提高模型的泛化能力，本文提出了基于流形正则化的在线半监督学习模型，并通过求解一个带约束问题获得模型的解析解。同时，为了提高计算效率，通过设计一种近似策略计算流形项的梯度，得到一种快速求解算法。此外，根据模型中正则化参数的性质，引入了两种缓冲区策略提高算法的扩展性。实验验证了提出的算法能够与拉普拉斯支持向量机达到相似的精度。

其他文献

Michael Jell

迈克尔出生于英国肯特郡的梅德斯通,但是他大部分的童年时光是在非洲的津巴布韦度过的。迈克尔非常幸运的是遇到了一个鼓励他艺术天分的老师,他曾在安大略省的谢尔丹艺术学院

期刊

梅德斯通媒体工作美术老师艺术天分Michael Jell谢尔安大略省型态hasbeenappreciation

车辆牌照识别系统（LPRS）研究

车牌图像的单字符分割即把车牌的整体区域分割成单字符的区域,以合后续进行识别,车牌字符分割的难点在于噪声和字符粘连、断裂对分割的影响.该文主要采用了引入先验知识、垂

学位

LPR系统图像预处理字符分割字符识别字符特征

延迟微分方程稳定性与Hopf分支分析

该文主要考虑依赖于参数的延尺微分方程和将数值方法应用于该方程时当参数变化时的稳定性与Hopf分支性质.该文的主要工作如下:1.以延迟量为参数,利用Euler方法研究了一阶延迟

学位

延迟微分方程数值分析Hopf分支数值方法分支周期解稳定性

上市公司资本结构与公司业绩相关性的实证研究

关于资本结构与公司业绩的关系，西方学者很早就开始了这方面的研究，如何衡量公司业绩成为其中的重要内容。现代公司财务理论是现代金融理论中最基础的内容之一，而资本结构理论又

学位

上市公司资本结构绩效评价指标权重

分段连续型延迟微分方程数值稳定性

该文应用线性θ-方法,单腿θ-方法和Runge-Kutta方法解带有延迟项[t],[t-1],[t+1]的延迟微分方程.主要研究这些方法的稳定性和收敛阶.应用线性θ-方法和单腿θ-方法解这些方

学位

分段连续延迟微分方程数值方法稳定性渐近稳定性

Linux桌面系统的应用与研究

随着网络经济的繁荣,对于Linux桌面系统的研究也是如火如荼,Linux桌面系统以管理简单、安全可靠、高性价比的优势获得了越来越多用户的亲睐和支持。从2000年年底我国政府采购

学位

LinuxWindows桌面系统办公套件电子政务

数论中若干未解决问题之研究

数论主要研究整数的性质，是最重要的数学分支之一.它的一个重要的特点是：在其漫长的发展历史中，人们始终以一些著名问题为中心来探索各种可能的研究方法.本文主要研究了加拿大数

学位

数论Euler数Fourier级数Eulerψ函数

关于粗糙集度量与粗糙计算方法的研究

粗糙集理论是八十年代初由波兰数学家Z.Pawlak首先提出的一个分析数据的数学理论.该理论近年来日益受到各领域广泛关注,并已在机器学习、模式识别、决策分析、过程控制、数据

学位

粗糙集信息系统数据分析模糊集信息熵算法复杂性

库存管理和鲁棒定价问题研究

本文主要围绕两个问题展开研究:能源回购项目下的最优库存控制，有限信息的鲁棒定价。　　世界经济的快速发展和工业化进程的推进促使各国电力需求激增，电力供需矛盾为能源回购

学位

运筹学能源回购库存控制鲁棒定价

基于KDP协议的密钥分发系统的分析与设计

信息安全的一个重要工具是密码技术，而密钥则是密码技术的根基，本文主要讨论了内网中的对称密钥分发问题。文中引入了一种全新的密钥分发协议KDP(KeyDistributionProtocol)，分析

学位

信息安全密码对称密码体制密钥分发密钥分发协议密钥分发系统

基于支持向量机的在线分类算法研究

其他学术论文