论文部分内容阅读
局部学习方法理论上具有较小的泛化误差,近年来在机器学习领域受到了一定关注。与全局学习方法相比,局部学习方法更加注重样本的局部分布,并且通过合理的选择局部参数达到比较好的分类效果。本文重点研究一种最新的支持向量机方法,即局部核分类器(FaLK-SVM)方法。它是一种有效的局部核学习方法。在训练阶段,它采用覆盖树算法寻找k’-近邻,用贪心算法进行中心集合覆盖,并进而训练以这些中心k-近邻为局部问题的模型;在预测阶段,对于给定的一个未知样本点,用覆盖树检索它的最近邻,并用最近邻的局部模型来预测未知样本的类别。然而,如何选择适当的一个局部分类器仍然比较困难,并且因为采用贪心算法进行k’-近邻中心集合覆盖,因此,离未知样本点最近的那个训练样本点有可能在多个的局部模型内。为此,我们基于局部核分类器方法,提出了使用多个局部模型联合预测某一未知样本点的自适应加权融合方法(FaLK-SVMa),该方法用该训练样本点所在的所有的局部模型联合预测未知样本点,使得该分类方法更加稳定。另外我们还提出了两种权重计算策略,使得离未知样本点最近的训练样本点所在的每个局部模型对最终的预测结果都有一个贡献分量。这些都使得预测结果更加合理,而且更加稳定。我们把改进后的局部核分类器方法,即自适应加权融合方法应用在两类问题和多类问题的UCI数据集上,其中,两类问题包括14个较小数据集和3个大的数据集;多类问题包括3个多类数据集。从实验结果可以看出,这种加权融合方法整体上不仅性能上预测精度较局部核分类器方法更高,而且训练阶段的时间复杂度还没有任何的增长。因此,可以看到我们提出的这种融合方法的优势所在。我们进一步将上述我们提出的自适应加权融合方法应用到脉象分类研究中,研究了基于局部核分类器的中医脉形分类问题。我们对从二一一医院采集的脉象样本进行预处理和提取单周期脉形特征,然后我们把这种自适应加权融合方法应用在整理后的中医脉形数据的两类脉象分类问题和多类脉象分类问题上,做了大量实验对比了几种方法,并深入的分析了相关的局部参数对这几种分类方法产生的影响。实验结果表明,我们提出的这种自适应加权融合方法(FaLK-SVMad和FaLK-SVMar)不仅在两类中医脉形分类中能够取得了较好的分类结果,而且也在多类问题中都达到了92.43%的分类精度。另外,我们还把我们提出的这两种自适应加权融合方法和其他几种分类方法进行比较,经过3-折交叉验证实验可以看出,我们提出的自适应加权融合方法的分类精度要高于其他几种分类方法,分别达到了92.27%和92.23%的分类精度。