论文部分内容阅读
支持向量机是在统计学习理论基础上发展起来的一种新型的机器学习方法,由于它是一种非线性、非参数估计的方法,在许多方面表现出了比传统的学习机器优越的性能。支持向量机通过核函数,把输入空间中的点映射到高维特征空间中,使得分类问题变为容易解决的线性可分问题。根据统计学习理论结构风险最小化原则,在确保很高的学习机器性能的同时,有效的控制了学习机器的复杂程度,避免了过学习问题。
求解支持向量机需要做二次规划,随着样本数量的增加,学习问题将变得难以求解。文章对大规模训练样本的支持向量机训练问题进行探索,提出了一种基于正交表的并行学习算法。这种方法建立在试验设计的多因子可加主效应统计模型和PRAM并行计算模型上,运用正交表使得支持向量机的训练问题可以通过求解一些相互独立的小的训练问题来求解,采用多处理机可求解大规模的训练问题。实验证明此算法是可行的,并可用于大规模学习问题的求解。
文章提出了一种用最小二乘支持向量机聚类的算法。通过线性约束替代非线性约束,使求解支持向量聚类由一个二次优化问题变为求解一个线性方程组。实验结果显示支持向量机在处理实际问题时,能有效避免局部极小点,训练时间比支持向量聚类有很大的减少。
同时,基于正交表的学习算法也在支持向量聚类中得到了应用,构造出了基于正交表的支持向量聚类算法。这种算法同样是基于多因子可加主效应统计模型和PRAM并行计算模型上,可以用来解决大规模样本的聚类问题。通过实验,我们对支持向量聚类的三种算法进行了比较。