论文部分内容阅读
不平衡数据分类是机器学习的研究热点之一.传统的机器学习分类算法通常假定用于训练的数据集是平衡的,不能直接应用于不平衡数据分类.利用朴素贝叶斯和决策树对数据不平衡的敏感度不同,提出一种基于投票的不平衡数据分类集成算法.基分类器选择NB和C4.5,通过投票平均方法进行分类决策;并选择公开的不平衡数据集进行实验验证.实验结果表明,该算法能有效提高不平衡数据的分类性能,特别是对正类(少数类)的误报率较低,具有良好的鲁棒性.