论文部分内容阅读
目的——层叠支持向量机作为一种并行支持向量机,通过全局问题分解、非支持向量过滤以及反馈来提高支持向量机在大规模数据上的训练效率。层叠支持向量机在大多数应用上能够得到一定精确度的支持向量机模型,在少数应用上需要通过多次反馈迭代得到相应的模型。从最终的训练结果来看,层叠支持向量机训练的模型精确度以及算法的稳定性相比于单机训练都有待提高。为了解决上述问题,提出基于交叉验证的层叠支持向量机,并分别实现了层叠支持向量机以及基于交叉验证的层叠支持向量机的并行化过程。方法——层叠支持向量机的实现过程中,初始的随机划分过程与两个支持向量机的合并算法都将对最终的训练结果产生不同程度的影响。通过分析与实验,将分别从上述的两方面进行扩展与优化。对于并行化过程,则考虑基于Spark平台实现。研究结果——首先,层叠支持向量机的初始随机划分在极端情况下,可能会削减最终的全局支持向量的数量。因此,提出限制的随机划分算法,通过限制初始划分后每个子集中正负样例所占的比例来避免其对最终模型的影响;其次,在两个支持向量机合并时,考虑除了支持向量以外的“特异点”,即一个子集中的非支持向量违背另一个子集训练结果的点,提出了交叉验证的合并算法;然后基于对这两方面的扩展,提出了基于交叉验证的层叠支持向量机。最终,在Spark平台上实现了层叠支持向量机与基于交叉验证的层叠支持向量机的并行化过程,并通过在不同数据集上的实验验证了基于交叉验证的层叠支持向量机的有效性以及稳定性。研究的局限性——对于初始划分对最终模型的精确度影响的研究仍然处于较浅显的层次,不能够从理论上保证划分后的子集的分布与原始数据的分布相似。同时,在并行化的实现过程中,虽然能够保证多个子集的并行训练,但是每个子集所采用的训练算法的并行化过程仍有待研究与扩展。实际影响——通过对层叠支持向量机的研究与扩展,在保证不大大降低训练效率的前提下,可以使其得到最终模型的精确度接近单机训练得到的模型。独创性——提出限制的随机划分算法来避免极端划分情况下对全局支持向量的削减;通过交叉验证对原有的合并算法进行扩展,得到了交叉验证的合并算法;上述两方面的优化最终得到了基于交叉验证的层叠支持向量机;通过分布式计算引擎Spark实现并行的训练与预测过程,实现了传统层叠支持向量机和基于交叉验证层叠支持向量机的并行化。