论文部分内容阅读
核方法是解决非线性模式识别的一种有效方法,它用核函数k(xi,xj)来度量样本xi和xj之间的相似性,并通过一个非线性映射将输入数据映射到高维特征空间H,然后在H中寻找线性决策边界。但传统的核方法是基于单个特征空间映射的单核学习方法,多核学习相对于传统的单核学习,有更强的可解释性和可扩展性,在解决一些实际问题时往往能够取得比单核方法更好的泛化性能。通常考虑多个基本核函数的线性凸组合是一种简单有效的多核学习方法,在该框架下,样本在特征空间中的表示问题转化为基本核与组合系数的选择问题。为了避免出现过拟合的情况,通常需要对基本核的组合系数施加LP范数约束条件,当P=1时,得到的是组合系数的稀疏解,此时多数核的组合系数为0。稀疏解的优点是模型在核选择方面有很好的可解释性,但稀疏解可能会导致模型中有用信息丢失和泛化性能变差。因此,Kloft等人提出了一种非稀疏的多核学习方法,通过对组系数施加LP(P?1)范数约束,以得到组合系数的非稀疏解。相对于L1约束,LP约束的多核学习有更强的抗噪声能力和更好的鲁棒性。支持向量机(Support vector machine,SVM)是一种广泛使用且行之有效的机器学习方法,相对于其它算法,它更适合于处理小样本、非线性及高维模式识别等问题。同时SVM是一种基于核的学习方法,和其它基于核的方法一样,当SVM利用核技巧时,面临着核函数及参数选择的问题,传统的方法是根据经验进行人工选择和调整,由于缺乏必要的理论支撑,其结果往往是不可靠的。本文将非稀疏的多核学习方法引入到SVM中,来解决SVM中核函数选择和参数设置的问题,目标是提出有效的多核学习方法,同时提高SVM的泛化能力。具体地,本文主要完成了以下4个方面的工作:(1)提出了一种基于原问题求解的非稀疏多核学习方法QN-MKL。传统的多核学习方法通常是将目标函数转化为鞍点问题并通过原问题的对偶进行求解,而求解原问题与求解对偶问题是等价的。一些研究表明,直接求解原问题比求解对偶问题有更好的收敛属性。本文算法采用了次梯度和拟牛顿法求解标准SVM,拟牛顿法的超线性收敛性质使得QN-MKL算法有相对较快的收敛速度,同时具有较好的泛化性能。(2)提出了非稀疏多核半监督SVM学习方法LP-MKL-S3VM。本文将多核学习引入到半监督学习中,并采用了拟牛顿法、模拟退火和成对标签交换的局部搜索法来优化目标函数;在多核学习框架中,我们同时加入了基本核和流形核,以在学习过程中有效利用数据的几何性质,以改善单一聚类假设算法的局限。通过人工数据集和真实数据集上的仿真实验验证了算法的有效性。(3)将多核学习方法应用到回归问题,提出了非稀疏多核SVR学习算法NS-M R。实验表明,在不增加模型复杂性的同时,提出的算法相对于稀疏多核回归算法有更小的拟合误差,从而表明非稀疏的核组合有利于改善回归问题的拟合效果,提高建模的准确性。(4)提出了一种基于Boosting学习框架的非稀疏多核学习方法Lp-MKLBoost,在Boosting学习的每次迭代中,最优弱分类器通过非稀疏多核学习方法得到,通过对核组合系数施加L2范数约束,可以保留更多的核,从而保留了更多有用特征信息。提出的算法既具有Boosting集成学习的特点,同时具有正则化非稀疏多核学习的特点。