论文部分内容阅读
在机器学习领域中,当要分类的数据集类别分布差别较大时,就称为不平衡数据分类。它是目前在机器学习和数据挖掘领域里一个研究热点。不平衡分类问题在现实生活中经常出现,而传统的分类器在解决这类问题时,会出现性能大幅下降的情况。从本世纪初开始,国内外学者对不平衡分类问题进行了深入的研究,并发表了众多相关的研究成果。不过对该问题还是存在许多可以研究的方面。 在本文中,首先介绍了在数据分布不平衡场景下,分类的一些特性,简单地回顾了数据分布不平衡在机器学习及现实应用中所造成的一系列问题,介绍国内外学者对该问题的研究现状。深入地讨论数据的内在特征,在数据不平衡分类时引起的一系列问题。这些内在特征包括:小析取项问题;训练集密度不足问题;类别覆盖问题;噪音数据;数据分布偏移问题,同时给出了对应的处理方法和建议。总结目前解决数据分布不平衡分类问题的主要方法,特别地,将介绍数据预处理,代价敏感学习和集成技术三种方法。 接着深入的介绍用来衡量不平衡分类性能的指标,探讨不同应用场景下,需要使用的合适指标。特别地,将分析ROC曲线下面积(AUC),单独做为度量分类器性能标准的不足之处:ROC只能衡量模型对样本排序的好坏,为取得好的分类结果,还需找到一个合适的划分阈值。最后提出了一个用来寻找最优分类阈值的框架:根据类别的错分代价是否相同,分别选取了F值和整体错分代价作为分类结果的衡量指标。先寻找训练集的最优分类阈值,然后用这个最优阈值去指导测试集或未知数据集的分类。将该框架应用到蛋白质的远程同源检测问题中。实验表明本文提出的框架能有效的工作,可以指导分类器的分类,提高分类器在查全率、查准率和F1值等指标的表现。