论文部分内容阅读
在线学习能够有效处理实时数据流和大规模数据,是机器学习领域的一个研究热点。在线学习一般指模型或分类器根据实时获取的新样本和反馈信息不断地进行更新学习,从而使得模型的泛化能力或分类器的预测精度能够增量式地提高。在线学习算法针对不同的任务可以分为不同的大类:在线监督学习,在线半监督学习和在线无监督学习算法。在线学习算法通常有以下优点:1)执行速度快;2)适应力强,可以有效捕捉在线动态数据流的变化;3)所需要的存储空间小;4)易于执行等。 从统计学习理论角度看,支持向量机(SVM)是结构风险最小化原则的具体实现,即在模型的复杂度和经验损失之间进行折衷,从而有效地避免模型的过拟合。由于其理论的完备性以及其求解算法的快速发展,SVM在诸多领域得到了广泛的应用,且基于SVM的在线分类算法也得到越来越多的关注。 本文基于传统的SVM模型以及由SVM模型诱导的双支持向量机(TWSVM)模型和拉普拉斯支持向量机(LapSVM)模型,研究在线监督学习和在线半监督学习算法。本论文的主要工作包括三个部分: 1、提出一种基于快速凸包选点方法的在线分类算法。利用凸包选点方法去除冗余样本点以进行快速训练是在线分类中一个重要且有效的方法。本文提出一种基于快速凸包选点方法的在线SVM算法。该方法利用凸包分解和投影方法,提高了凸包问题的求解效率。另外,针对高维问题,通过引入近似凸包方法,能够删除更多的非重要样本。同时,通过去除异常点和引入维数转换算法,提高了该方法的鲁棒性和适用性。本文还在理论上给出了基于近似凸包的SVM和基于所有训练样本的SVM之间差别的上界。在模拟数据集和真实数据集上的实验验证了该算法的可靠性和有效性。 2、提出一种基于非平行超平面的在线分类算法。SVM旨在求解两个平行超平面,使得两个平行超平面之间的间隔最大化。然而,实际中数据复杂,可能包含大量噪声,不能完全满足超平面平行的约束。为此,本文建立了一种基于非平行超平面的在线分类模型,并在理论上给出了模型的解析解。此外,通过简化模型求解中的矩阵求逆运算,提高了模型的计算效率。实验表明提出的算法具有很好的精度和收敛效果。 3、提出一种基于流形正则化的在线半监督学习模型。在许多应用问题中,新样本的标签在在线过程中不可知或非常零散地被获取。而传统的在线监督学习算法只根据有标签样本进行训练,这造成了无标签样本信息的浪费以及模型的不稳定性。为了提高模型的泛化能力,本文提出了基于流形正则化的在线半监督学习模型,并通过求解一个带约束问题获得模型的解析解。同时,为了提高计算效率,通过设计一种近似策略计算流形项的梯度,得到一种快速求解算法。此外,根据模型中正则化参数的性质,引入了两种缓冲区策略提高算法的扩展性。实验验证了提出的算法能够与拉普拉斯支持向量机达到相似的精度。