基于动态代价敏感的机器学习研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：edgecsst

【摘要】

：

传统的机器学习算法是以追求精度为目的,并假定不同类别间的错误分类代价是相同的。但事实并非如此,在很多现实应用中,将一个类别错误分成其他类别的代价有时比将其他类别错

【作者】

：

陈晓林

【出处】

：

华中科技大学

【发表日期】

：

2010年期

【关键词】

：

代价敏感机器学习动态误分类代价遗传算法支持向量机集成学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统的机器学习算法是以追求精度为目的,并假定不同类别间的错误分类代价是相同的。但事实并非如此,在很多现实应用中,将一个类别错误分成其他类别的代价有时比将其他类别错误分成该类别的代价高出很多。代价敏感机器学习充分考虑误分类代价,更关注感兴趣类别的正确识别率,在提高该正确识别率的同时,使得错误分类付出的代价尽可能少。目前,代价敏感机器学习方法使用静态误分类代价,容易产生数据集或应用域依赖,不能较好地解决类分布不均衡的问题,得到的分类器的泛化性能不强。为此,提出一种基于动态误分类代价的机制,该机制充分结合应用域专家的知识,形成客观的具有代表性的误分类代价空间,对不同数据子集灵活地选择更合适的误分类代价,能够更好地逼近应用域数据集真实的误分类代价。定义了一个最优误分类代价函数,该函数可以保证少数类与多数类之间、类别内部的反馈率与精确率之间达到最佳折中;提出了自适应误分类动态代价寻优方法,该方法根据应用域数据集的不同,自动在其可行误分类代价空间里,搜索适合于不同数据子集的最优误分类代价,形成一个代价敏感分类器。以前机器学习的评价指标体系不再适合代价敏感分类器的性能评价。为解决这一问题,定义了多个评价代价敏感分类器性能的度量指标,反映分类器在不同类别之间关于精确率、反馈率、Kappa值和F-measure的均衡程度。这些指标旨对各类的反馈率和精确率进行几何平均并最大化,以达到二者之间的最佳折中,充分提高代价少数类的正确识别率,同时尽可能少地牺牲分类器的整体性能。依据动态误分类代价机制和动态代价自适应算法,提出了三种单一分类器的代价敏感构造算法:(1)自适应动态代价优化决策树算法(ADODT),该算法以决策树为基础,采用最速梯度上升误分类代价寻优方法,在较快的时间内达到算法收敛;(2)基于遗传算法的代价敏感分类器算法(CSC-SGA),该算法以最优误分类代价函数作为适应度函数,用遗传算法来搜寻不均衡数据集的最优误分类代价;(3)自适应动态代价敏感SVM分类器算法(ADC-SVM),该算法以SGA作为最优误分类代价的搜寻算法,以代价敏感SVM作为个体构造分类器,在面对不均衡数据集时,所得分类器的性能比当前的代价敏感SVM有着显著提升。基于动态误分类代价机制和自适应代价寻优方法,结合bagging技术,提出了一个新颖的代价敏感集成分类器算法----自适应动态代价优化集成分类器(ADOE)。该方法利用重采样技术(有放回和无放回两种形式),并对每个不同类别的实例进行误代价加权,结合误分类代价寻优算法,利用不稳定的学习算法训练多个子分类器,用投票方式对原始数据集实例重新赋予代价敏感性的类别标志,得到的代价非敏感的集成分类器具有代价敏感的分类能力。该分类器在面对类分布严重偏斜的数据集时,分类精度高且性能稳定。利用真实的数据集做了大量实验,实验结果表明,提出的方法比当前一些方法在性能上有显著提高,特别是自适应动态代价优化集成分类器,能很好地解决类分布严重不均衡数据集的分类问题。并以论文提出的自适应动态代价优化集成分类器设计了一个乳腺癌辅助诊断原型系统,取得了较好的辅助诊断效果。

其他文献

多智能体系统蜂拥控制及应用

近年来,网络化群体系统的分布式协调控制问题受到了不同领域研究人员的关注.多智能体蜂拥行为作为群体现象的一种,不仅可以描述和解释大多数生物群体的协调行为和自组织现象,

学位

多智能体蜂拥分布式控制一致虚拟领导者移动传感器网络

1980-2015年间温庭筠诗歌研究综述

三十五年来,温庭筠诗歌研究不论是关注焦点,还是研究方法都发生了很多改变,可将1980-2015年间分为三个时间段,结合时代特征分别加以总结和分析,得出相应的特征,即:考证与开拓

期刊

温庭筠诗歌评述

新型被动在轨非连接支撑选材优化

以新型被动在轨非连接支撑（简称PODS）为研究对象，建立有限元模型。基于正交实验法对PODS支撑结构各组件设计不同材料组合方案，进行热分析。结果表明不同材料组合的支撑结构漏热量

期刊

新型PODS传热分析正交试验材料组合Novel PODS Heat analysis Orthogonal experiment Material

选果蔬干制品不能只看“颜值”

<正>秋冬季节,相信很多消费者都会习惯性地备上一些高热量的休闲小零食,既可以快速补充热量抵御寒冷,也可以顺便解解肚里的'馋虫'。而红枣干、葡萄干、果脯蜜饯类的

期刊

闪烁的灯光——《乡土·岁月·追寻》之六

<正> 小小的院子佘家胡同的"浙江学会"是我从家乡不远千里来到北方故都后的第一个住处,虽然只占有一间阴暗的小房子,究竟生活还方便,环境也熟悉了,最重要的是不要交房租,的确

期刊

侵略者李寒谷《乡土·岁月·追寻》年青人文学道路写作学习作家协会高尔基青年救国会日本浪人

电化学法涂层导体CeO2缓冲层外延生长研究

电化学沉积法制备高温超导YBa：Cu3O7-δ涂层导体缓冲层具有工艺简单、设备要求低、易于连续化批量制备等优点。采用电化学沉积法，在双轴织构的Ni-5at．％W（Ni-5W）金属基带上成功制备

期刊

YBACu3O7—δ涂层导体电化学沉积缓冲层YBCO Coated conductor Electro- deposition Buffer l

基于居民感知的旅游城镇化影响研究——以武汉市黄陂区为例

旅游城镇化是以旅游业为主要推动力的城镇化类型,是新型城镇化的重要路径之一,其过程更加注重＂人的城镇化＂。在旅游城镇化的进程中,当地居民对旅游城镇化的影响感知强烈并有其

期刊

旅游城镇化城郊居民感知研究

非仿射非线性不确定系统的自适应模糊控制研究及应用

非仿射非线性系统广泛存在于现实生活中,考虑到实际系统通常具有不确定性,控制非仿射非线性不确定系统是一项创新而又富有挑战性的课题,具有重要的理论意义和应用价值。围绕

学位

非仿射非线性系统自适应模糊控制严格反馈系统Backstepping方法Lyapunov-Krasovskii泛函非线性时滞系统双曲正切函数混沌系统

清代桐城望族的义田:以桂林方氏家族为中心的探讨

自明代中后期开始,桐城各家族就开始相继设立义田,最初以祭祀为目的,后增加了救助族内贫乏的功能。清代中期以后,桐城开始设立家族义庄,是专门的宗族赈济和救助组织,并以桂林

期刊

桐城桂林方氏义庄

3295例新生儿听力和聋病易感基因联合筛查结果分析

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

畸变产物耳声发射聋病易感基因先天性听力损失新生儿听力筛查

基于动态代价敏感的机器学习研究

其他学术论文