论文部分内容阅读
由于计算机和信息技术的长足发展,人类社会步入大数据时代。从大数据中寻找规律,并对未来数据进行预测,成为一个十分迫切的研究课题。支持向量机(SVM)建立在统计学习理论的VC维理论和结构风险最小化原则的基础上,凭借着最大间隔原则、核策略以及对偶理论,成为解决数据挖掘问题的有力工具,并己在诸多领域得到了广泛应用。 为了提高SVM的分类精度,诸如双子支持向量机(TWSVM)、限定支持向量机(TBSVM)等构建两条分划超平面的算法被提出。但由于它们在计算过程中需要计算逆矩阵,既影响计算速度,又无法应对大规模数据,并且对于非线性问题,不能直接引入核函数,失去了支持向量机的优势。因此,非平行支持向量机(NPSVM)应运而生,它进一步改进SVM和TWSVM,很好地继承了二者的优势。 本文深入研究了非平行支持向量机的理论与方法,指出在其训练过程中忽略了一种重要的先验知识,即样本的类内分布结构信息。基于此,本文将样本的类内分布结构先验信息以协方差矩阵的形式引入目标函数,提出了结构化非平行支持向量机的理论与算法,并在随后为应对大规模数据量的分类问题及具有高维特征的样本分类和预测问题等分别展开研究。主要工作如下: (1)结构化非平行支持向量机的理论与算法(SNPSVM)对于非平行支持向量机未充分考虑样本类内分布结构信息这一问题,通过将协方差矩阵引入目标函数,提出了结构化非平行支持向量机(SNPSVM)。同时,设计了相应的交替方向乘子算法(ADMM),并提出了关于数据、模型以及算法三方面的并行实现策略。本文不仅从理论上分析了模型与算法的有效性,而且通过大量数值实验给出了证明。数值实验表明,大部分数据集都包含有一定的类内分布结构信息,将之引入NPSVM中所提出的SNPSVM模型,可提高NPSVM和SRSVM的分类准确率,并且这一提升具有统计显著性。 (2)v-结构化非平行支持向量机的理论与算法(v-SNPSVM)v-结构化非平行支持向量机(v-SNPSVM)是对已有的v-非平行支持向量机(v-NPSVM)考虑样本的类内分布结构信息进行扩展的算法。该算法中的参数v具有数值上的意义,可在较小的(0,1]区间范围内取值,该算法在较短的时间即可得到准确的模型,大量数值实验证实了这一点。 (3)基于哈希的大规模核矩阵近似当使用SNPSVM处理大规模数据时,为解决维数灾难、求大规模逆矩阵的困境以及加速训练,提出了基于哈希的大规模结构化支持向量机算法。该算法首先采用b位minwise哈希算法将原始数据集映射到新的特征空间,实现了大规模核矩阵的近似,通过线性SNPSVM即可进行有效学习。为实现快速预测,提出了基于哈希的SNPSVM预测算法,由于对于高维数据集而言,计算w和x的海明距离要比计算二者的内积快很多,因而预测时间大大缩短。特别地,对于具有非常多类别的大规模多分类问题,通过两步策略构造了多分类SNPSVM,并可提高原算法的泛化能力。大量数值实验证明了算法的有效性。 (4)基于结构化信息约简大规模数据集当面对大规模数据量时,本文基于分解算法和取代表点的思想,将原始大规模数据集Dfull进行划分,并在子数据集上采用safe screening策略鉴定并剔除非支持向量,剩余数据点组成新的训练集Dreduce(Dreduce(<<)Dfull)。在集合Dreduce上,结合原始数据集上的结构信息,建立结构化非平行支持向量机。该方法可在保持原始数据集的分布结构信息的前提下,有效约简大规模数据集,提高训练效率。数值实验证明了该算法的有效性。