论文部分内容阅读
信息技术的快速发展产生了复杂的数据,如何从中获取实用信息是非常值得研究的,机器学习中的分类在这方面发挥了至关重要的作用。传统分类算法假设样本的各类数量及每类被错分的代价差别不大,然而数据不平衡现象普遍存在于分类问题中,此时传统分类算法不再适用于不平衡数据的分类,因此不平衡数据的分类是一项非常具有实际意义的研究课题。
已有前人将重采样与集成学习进行结合,如SMOTEBoost、RUSBoost等,但基于欠采样的方法忽略了负类样本的有用信息,基于过采样的方法增加了模型的复杂度,容易过拟合。针对这些问题,有学者提出了混合集成方法,对集成进行集成,即在内层对训练集进行Boosting集成,在外层对Boosting分类器进行Bagging集成。EasyEnsemble的并行集成方式与BalanceCascade的串行集成方式相比更容易实现,可以减少时间复杂度,提高算法效率。但EasyEnsemble每次生成新的训练集时不对正类样本集做处理,参加基分类器训练的所有少数类样本都完全相同,这很可能导致少数类样本的过度学习。
为了解决EasyEnsemble中少数类样本容易过学习的问题,增加混合集成中学习器的差异性,降低模型的方差,本文提出了改进混合集成方法bEnsemble。bEnsemble算法首先对正样本执行自助采样,采样率为r,随机对负样本进行欠采样以获得相同数量的样本子集;然后将这两个样本子集合并为数据平衡的训练集,利用XGBoost来训练,得到一个基分类器;最后重复以上操作T次,将所有的基分类器整合起来,得到最终的集成分类器。当不平衡率较大时,本文在bEnsemble的基础上结合SMOTE过采样方法提出了sEnsemble算法,在bEns-emble算法之前执行一次上采样率为N的SMOTE过采样,增加训练集样本差异性的同时也增加了每轮参与基分类器训练的样本量。在理论方面,本文对两种新提出的算法进行了时间复杂度、方差-偏差平衡和误差-分歧分解的分析。
最后,本文利用F1-measure、G-mean和AUC这三个指标和Friedman检验来衡量算法的性能,设计了两大实验:从Bagging和Boosting两个改进方向设计对比实验,验证了两个改进方向的正确性和必要性;设计与其他经典算法的对比实验,并针对新算法的参数调节给出建议,结果表明bEnsemble和sEnsemble在三个指标下普遍优于其他算法,验证了在不同数据集和不同评价指标下新算法性能的有效性和稳定性。
已有前人将重采样与集成学习进行结合,如SMOTEBoost、RUSBoost等,但基于欠采样的方法忽略了负类样本的有用信息,基于过采样的方法增加了模型的复杂度,容易过拟合。针对这些问题,有学者提出了混合集成方法,对集成进行集成,即在内层对训练集进行Boosting集成,在外层对Boosting分类器进行Bagging集成。EasyEnsemble的并行集成方式与BalanceCascade的串行集成方式相比更容易实现,可以减少时间复杂度,提高算法效率。但EasyEnsemble每次生成新的训练集时不对正类样本集做处理,参加基分类器训练的所有少数类样本都完全相同,这很可能导致少数类样本的过度学习。
为了解决EasyEnsemble中少数类样本容易过学习的问题,增加混合集成中学习器的差异性,降低模型的方差,本文提出了改进混合集成方法bEnsemble。bEnsemble算法首先对正样本执行自助采样,采样率为r,随机对负样本进行欠采样以获得相同数量的样本子集;然后将这两个样本子集合并为数据平衡的训练集,利用XGBoost来训练,得到一个基分类器;最后重复以上操作T次,将所有的基分类器整合起来,得到最终的集成分类器。当不平衡率较大时,本文在bEnsemble的基础上结合SMOTE过采样方法提出了sEnsemble算法,在bEns-emble算法之前执行一次上采样率为N的SMOTE过采样,增加训练集样本差异性的同时也增加了每轮参与基分类器训练的样本量。在理论方面,本文对两种新提出的算法进行了时间复杂度、方差-偏差平衡和误差-分歧分解的分析。
最后,本文利用F1-measure、G-mean和AUC这三个指标和Friedman检验来衡量算法的性能,设计了两大实验:从Bagging和Boosting两个改进方向设计对比实验,验证了两个改进方向的正确性和必要性;设计与其他经典算法的对比实验,并针对新算法的参数调节给出建议,结果表明bEnsemble和sEnsemble在三个指标下普遍优于其他算法,验证了在不同数据集和不同评价指标下新算法性能的有效性和稳定性。