论文部分内容阅读
衡量分类器及其学习算法优劣的标准不能简单地采用分类精度等单一指标。现实生活中有大量不平衡数据集,包括样本数量不平衡和分布区域不平衡。在面对高度不平衡数据集时,常规算法往往会发生偏斜,造成分类结果不理想。在处理大样本和高维大样本数据集时,从降低时间复杂度和空间复杂度两方面考虑,线性分类器比较理想。 本文的主要工作如下: (1)评价函数在算法构建、算法模型训练以及算法评估中的应用及选择。单一的评价指标往往不能做到全面衡量,尤其是面对高度不平衡数据集时,全面地评估有举足轻重的作用。 (2)对伪逆算法参数的分别训练。原始的伪逆算法采用一次性解析计算出所有分类参数。本文分别将其分解为投影方向和阈值两个参数进行不同的优化训练。 (3)期望输出对伪逆算法的影响分析。并提出了基于动态修改期望输出的一种伪逆的迭代模型。该算法具有良好的收敛性,能够解决线性可分问题,而不必担心过拟合问题。 (4)提出在算法训练过程中数据层面的分解,将算法关注点集中到模糊区域中,提升分类器性能。最终提出了最优阈值的迭代伪逆算法和最优阈值的Fisher算法。 为了防止一对多训练方法带来的不平衡因素,对多类分类问题采用一对一分解方法。本文提出的线性分类器优化算法能够解决高度不平衡困扰,在处理大规模数据样本时,能够迅速得出结果。此外,本文采用多种评价指标来衡量分类器性能,能够做到全面准确地评估。多种评价指标在不同的数据集中都显示出该优化算法的优越性。多个数据集上的实验证明,该算法具有良好的推广性。