论文部分内容阅读
当今时代又被称为大数据时代,其特点就是人们已经被各种各样的大规模数据包围。在这种背景下,机器学习渐渐取代了领域专家成为处理大数据的强有力工具,并且已经成功应用于人类生活的诸多领域中(例如电商、新闻阅读、征信、广告投放等)。然而,传统的机器学习算法依旧面临着不小的挑战。首先就是如何高效地处理大规模数据,其次则是如何处理在线流数据。支持向量机算法(Support Vector Machine,SVM)作为最经典的机器学习算法之一,也面临着同样的问题。简单地说,线性SVM算法速度很快且具备在线学习的能力但是无法处理非线性可分数据;核SVM能够处理非线性可分数据但是速度很慢且不具备在线学习的能力。为了能够高效地处理非线性流数据,本文展开了基于边界点的局部线性支持向量机算法的研究。我们提出了这样一个研究思路:基于边界点将非线性数据划分成近似线性可分的若干小块;每一块使用一个线性SVM进行分类并最终构造一条分段线性的分界面。具体地,我们首先提出了一种基于边界点编码的局部线性支持向量机算法(Local Linear SVM based on Boundary Anchor Points Enchoding,LLBAP)。LLBAP首先学习出边界点并采用基于边界点的局部编码将训练集划分成若干小块。其次,LLBAP在每一小块上训练一个线性SVM并最终构造一个分段线性且光滑的分界面。LLBAP是一个批量算法,其无法处理在线数据。为了解决这个问题,我们对LLBAP进行了一些改进,进而提出了本文的第二个算法—增量式的集成专家网络(Incremental Network with Local EXperts Ensemble,INLEX)。与LLBAP不同的是,INLEX中使用了一种基于熵的在线边界点学习方法并将线性SVM的在线训练与边界点的在线学习相融合,从而具备了在线学习的能力。在大规模数据上的实验结果表明:LLBAP的分类性能仅仅略差于核SVM但是却拥有与线性SVM相当的训练和预测速度;从分类性能、训练速度和预测速度三个方面综合考虑,LLBAP的性能也优于其他的同类方法。此外,INLEX的实验结果同样证明INLEX具有稳定的增量性能以及优于同类算法的分类性能。