论文部分内容阅读
支持向量机(Support Vector Machine SVM)是目前公认的广泛使用的模式识别和机器学习方法,它基于支持向量决定的核函数的线性组合做出预测。SVM在各方面有着广泛的应用,然而SVM有着自身的缺陷,比如SVM产生的是点预测而不是概率预测分布。相关向量机(Relevance Vector Machine RVM)是在贝叶斯框架下进行学习的稀疏概率模型。RVM在先验参数的结构下基于主动相关决策理论(Automatic Relevance Determination ARD)来移除不相关的点,从而获得稀疏化的模型;RVM可以用更少的核函数与 SVM产生相同的输出模型,重要的是 RVM的预测是概率的,从而在做出预测的同时给出了预测的置信区间。由于 RVM具有很好的稀疏性以及核函数的任意性,RVM应用到越来越多的领域,比如医疗诊断、图像处理、视觉跟踪、时间序列预测等。但是计算的复杂性和占用大量的存储空间限制了RVM应用到大数据集中。目前解决这个困难的方法有快速边际似然法、将核函数正交分解的Gram-Schmidt算法、Boosting RVM等。
对于RVM难以处理大规模样本的问题,本文提出了增量贝叶斯方法应用到RVM分类学习中:其思想是从数据集中通过均匀采样的方法选择一个子集作为训练集,得到子集权重的后验分布以及对应的超参数,将子集不为零的权重对应的样本与新增样本组成下一轮训练样本。在共轭分布的前提下,不为零权重的后验信息可以作为下一轮计算的先验信息,与新增样本信息综合,求得下一论训练样本权重的后验信息和对应的超参数,直到所有的样本训练完成,这样得到的后验信息会越来越接近实际结果。通过实验结果分析表明增量贝叶斯分类器处理大规模数据集可以在保证误差的前提下提高计算的速度和获得更好的稀疏性。