基于支持向量机的在线分类算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:songyonghuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线学习能够有效处理实时数据流和大规模数据,是机器学习领域的一个研究热点。在线学习一般指模型或分类器根据实时获取的新样本和反馈信息不断地进行更新学习,从而使得模型的泛化能力或分类器的预测精度能够增量式地提高。在线学习算法针对不同的任务可以分为不同的大类:在线监督学习,在线半监督学习和在线无监督学习算法。在线学习算法通常有以下优点:1)执行速度快;2)适应力强,可以有效捕捉在线动态数据流的变化;3)所需要的存储空间小;4)易于执行等。  从统计学习理论角度看,支持向量机(SVM)是结构风险最小化原则的具体实现,即在模型的复杂度和经验损失之间进行折衷,从而有效地避免模型的过拟合。由于其理论的完备性以及其求解算法的快速发展,SVM在诸多领域得到了广泛的应用,且基于SVM的在线分类算法也得到越来越多的关注。  本文基于传统的SVM模型以及由SVM模型诱导的双支持向量机(TWSVM)模型和拉普拉斯支持向量机(LapSVM)模型,研究在线监督学习和在线半监督学习算法。本论文的主要工作包括三个部分:  1、提出一种基于快速凸包选点方法的在线分类算法。利用凸包选点方法去除冗余样本点以进行快速训练是在线分类中一个重要且有效的方法。本文提出一种基于快速凸包选点方法的在线SVM算法。该方法利用凸包分解和投影方法,提高了凸包问题的求解效率。另外,针对高维问题,通过引入近似凸包方法,能够删除更多的非重要样本。同时,通过去除异常点和引入维数转换算法,提高了该方法的鲁棒性和适用性。本文还在理论上给出了基于近似凸包的SVM和基于所有训练样本的SVM之间差别的上界。在模拟数据集和真实数据集上的实验验证了该算法的可靠性和有效性。  2、提出一种基于非平行超平面的在线分类算法。SVM旨在求解两个平行超平面,使得两个平行超平面之间的间隔最大化。然而,实际中数据复杂,可能包含大量噪声,不能完全满足超平面平行的约束。为此,本文建立了一种基于非平行超平面的在线分类模型,并在理论上给出了模型的解析解。此外,通过简化模型求解中的矩阵求逆运算,提高了模型的计算效率。实验表明提出的算法具有很好的精度和收敛效果。  3、提出一种基于流形正则化的在线半监督学习模型。在许多应用问题中,新样本的标签在在线过程中不可知或非常零散地被获取。而传统的在线监督学习算法只根据有标签样本进行训练,这造成了无标签样本信息的浪费以及模型的不稳定性。为了提高模型的泛化能力,本文提出了基于流形正则化的在线半监督学习模型,并通过求解一个带约束问题获得模型的解析解。同时,为了提高计算效率,通过设计一种近似策略计算流形项的梯度,得到一种快速求解算法。此外,根据模型中正则化参数的性质,引入了两种缓冲区策略提高算法的扩展性。实验验证了提出的算法能够与拉普拉斯支持向量机达到相似的精度。
其他文献
迈克尔出生于英国肯特郡的梅德斯通,但是他大部分的童年时光是在非洲的津巴布韦度过的。迈克尔非常幸运的是遇到了一个鼓励他艺术天分的老师,他曾在安大略省的谢尔丹艺术学院
车牌图像的单字符分割即把车牌的整体区域分割成单字符的区域,以合后续进行识别,车牌字符分割的难点在于噪声和字符粘连、断裂对分割的影响.该文主要采用了引入先验知识、垂
该文主要考虑依赖于参数的延尺微分方程和将数值方法应用于该方程时当参数变化时的稳定性与Hopf分支性质.该文的主要工作如下:1.以延迟量为参数,利用Euler方法研究了一阶延迟
关于资本结构与公司业绩的关系,西方学者很早就开始了这方面的研究,如何衡量公司业绩成为其中的重要内容。现代公司财务理论是现代金融理论中最基础的内容之一,而资本结构理论又
该文应用线性θ-方法,单腿θ-方法和Runge-Kutta方法解带有延迟项[t],[t-1],[t+1]的延迟微分方程.主要研究这些方法的稳定性和收敛阶.应用线性θ-方法和单腿θ-方法解这些方
随着网络经济的繁荣,对于Linux桌面系统的研究也是如火如荼,Linux桌面系统以管理简单、安全可靠、高性价比的优势获得了越来越多用户的亲睐和支持。从2000年年底我国政府采购
数论主要研究整数的性质,是最重要的数学分支之一.它的一个重要的特点是:在其漫长的发展历史中,人们始终以一些著名问题为中心来探索各种可能的研究方法.本文主要研究了加拿大数
粗糙集理论是八十年代初由波兰数学家Z.Pawlak首先提出的一个分析数据的数学理论.该理论近年来日益受到各领域广泛关注,并已在机器学习、模式识别、决策分析、过程控制、数据
本文主要围绕两个问题展开研究:能源回购项目下的最优库存控制,有限信息的鲁棒定价。  世界经济的快速发展和工业化进程的推进促使各国电力需求激增,电力供需矛盾为能源回购
信息安全的一个重要工具是密码技术,而密钥则是密码技术的根基,本文主要讨论了内网中的对称密钥分发问题。文中引入了一种全新的密钥分发协议KDP(KeyDistributionProtocol),分析