论文部分内容阅读
支持向量机(SVM)是常用的机器学习算法。实现性能最优的SVM模型需要进行参数优化,这里的参数包括SVM算法的超参数、数据特征权重、训练过程中的Lagrange乘子,以及模型阈值。随着数据规模增长,给SVM应用带来挑战。为此,论文提出集合卡尔曼滤波(En KF)算法用于参数优化和特征优化,提高SVM优化效率和模型性能,En KF算法主要用于地球科学领域的数据同化。同时,根据SVM模型训练和参数优化特点,提出级联式技术用于加速SVM在参数优化过程中的模型训练。此外,论文以引力波噪声事件分析为主要应用对象,提出分层模型和ROC块算法,提供SVM模型的分类性能。论文工作包括:(1)提出基于En KF的SVM超参数优化方法。该方法包含多种优化技术,其中多集合用于避免局部最优,集合进化用于扩大搜索范围,集合归并算法用于提高集合表示能力,基于Householder变换的UR分解方法降低En KF计算开销。在此基础上建立En KF优化框架。实验结果表明,在限定参数采样条件下,与现有的三种贝叶斯优化算法比较,En KF方法优化效果更好。(2)提出基于En KF的特征选择和特征加权方法。针对高维空间,提出混合策略,采用过滤式技术进行降维,并且指导集合生成,同时建立两阶段的集合进化流程提高搜索效率。此外,En KF方法能够同时处理参数优化和特征优化。实验结果表明,在限定参数采样条件下,En KF方法能够大大减少特征数量,同时在一些数据集上实现性能提升。(3)提出级联式加速技术用于降低SVM在超参数优化过程中的训练开销。该技术利用低效维度特性,在不同训练任务之间建立级联,将已有模型结果作为初始条件用于SVM模型训练,减少计算过程中工作集选择。实验结果表明,在网格搜索中SVM的计算开销降低29.6%到84.5%,其它优化方法中SVM的计算开销平均降低21.9%到62.7%。(4)提出SVM分层模型用于引力波噪声事件分析。该应用为代价敏感的二分类问题。该模型基于非平衡树结构,通过逐层分类对噪声事件进行识别。同时,提出ROC块算法用于模型阈值选择和模型性能可视化。实验结果表明,在给定误警条件下,分层模型能够提高大约10%的识别性能。