论文部分内容阅读
传统的机器学习算法是以追求精度为目的,并假定不同类别间的错误分类代价是相同的。但事实并非如此,在很多现实应用中,将一个类别错误分成其他类别的代价有时比将其他类别错误分成该类别的代价高出很多。代价敏感机器学习充分考虑误分类代价,更关注感兴趣类别的正确识别率,在提高该正确识别率的同时,使得错误分类付出的代价尽可能少。目前,代价敏感机器学习方法使用静态误分类代价,容易产生数据集或应用域依赖,不能较好地解决类分布不均衡的问题,得到的分类器的泛化性能不强。为此,提出一种基于动态误分类代价的机制,该机制充分结合应用域专家的知识,形成客观的具有代表性的误分类代价空间,对不同数据子集灵活地选择更合适的误分类代价,能够更好地逼近应用域数据集真实的误分类代价。定义了一个最优误分类代价函数,该函数可以保证少数类与多数类之间、类别内部的反馈率与精确率之间达到最佳折中;提出了自适应误分类动态代价寻优方法,该方法根据应用域数据集的不同,自动在其可行误分类代价空间里,搜索适合于不同数据子集的最优误分类代价,形成一个代价敏感分类器。以前机器学习的评价指标体系不再适合代价敏感分类器的性能评价。为解决这一问题,定义了多个评价代价敏感分类器性能的度量指标,反映分类器在不同类别之间关于精确率、反馈率、Kappa值和F-measure的均衡程度。这些指标旨对各类的反馈率和精确率进行几何平均并最大化,以达到二者之间的最佳折中,充分提高代价少数类的正确识别率,同时尽可能少地牺牲分类器的整体性能。依据动态误分类代价机制和动态代价自适应算法,提出了三种单一分类器的代价敏感构造算法:(1)自适应动态代价优化决策树算法(ADODT),该算法以决策树为基础,采用最速梯度上升误分类代价寻优方法,在较快的时间内达到算法收敛;(2)基于遗传算法的代价敏感分类器算法(CSC-SGA),该算法以最优误分类代价函数作为适应度函数,用遗传算法来搜寻不均衡数据集的最优误分类代价;(3)自适应动态代价敏感SVM分类器算法(ADC-SVM),该算法以SGA作为最优误分类代价的搜寻算法,以代价敏感SVM作为个体构造分类器,在面对不均衡数据集时,所得分类器的性能比当前的代价敏感SVM有着显著提升。基于动态误分类代价机制和自适应代价寻优方法,结合bagging技术,提出了一个新颖的代价敏感集成分类器算法----自适应动态代价优化集成分类器(ADOE)。该方法利用重采样技术(有放回和无放回两种形式),并对每个不同类别的实例进行误代价加权,结合误分类代价寻优算法,利用不稳定的学习算法训练多个子分类器,用投票方式对原始数据集实例重新赋予代价敏感性的类别标志,得到的代价非敏感的集成分类器具有代价敏感的分类能力。该分类器在面对类分布严重偏斜的数据集时,分类精度高且性能稳定。利用真实的数据集做了大量实验,实验结果表明,提出的方法比当前一些方法在性能上有显著提高,特别是自适应动态代价优化集成分类器,能很好地解决类分布严重不均衡数据集的分类问题。并以论文提出的自适应动态代价优化集成分类器设计了一个乳腺癌辅助诊断原型系统,取得了较好的辅助诊断效果。