基于重采样和混合集成的不平衡数据分类研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:dingshilin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的快速发展产生了复杂的数据,如何从中获取实用信息是非常值得研究的,机器学习中的分类在这方面发挥了至关重要的作用。传统分类算法假设样本的各类数量及每类被错分的代价差别不大,然而数据不平衡现象普遍存在于分类问题中,此时传统分类算法不再适用于不平衡数据的分类,因此不平衡数据的分类是一项非常具有实际意义的研究课题。
  已有前人将重采样与集成学习进行结合,如SMOTEBoost、RUSBoost等,但基于欠采样的方法忽略了负类样本的有用信息,基于过采样的方法增加了模型的复杂度,容易过拟合。针对这些问题,有学者提出了混合集成方法,对集成进行集成,即在内层对训练集进行Boosting集成,在外层对Boosting分类器进行Bagging集成。EasyEnsemble的并行集成方式与BalanceCascade的串行集成方式相比更容易实现,可以减少时间复杂度,提高算法效率。但EasyEnsemble每次生成新的训练集时不对正类样本集做处理,参加基分类器训练的所有少数类样本都完全相同,这很可能导致少数类样本的过度学习。
  为了解决EasyEnsemble中少数类样本容易过学习的问题,增加混合集成中学习器的差异性,降低模型的方差,本文提出了改进混合集成方法bEnsemble。bEnsemble算法首先对正样本执行自助采样,采样率为r,随机对负样本进行欠采样以获得相同数量的样本子集;然后将这两个样本子集合并为数据平衡的训练集,利用XGBoost来训练,得到一个基分类器;最后重复以上操作T次,将所有的基分类器整合起来,得到最终的集成分类器。当不平衡率较大时,本文在bEnsemble的基础上结合SMOTE过采样方法提出了sEnsemble算法,在bEns-emble算法之前执行一次上采样率为N的SMOTE过采样,增加训练集样本差异性的同时也增加了每轮参与基分类器训练的样本量。在理论方面,本文对两种新提出的算法进行了时间复杂度、方差-偏差平衡和误差-分歧分解的分析。
  最后,本文利用F1-measure、G-mean和AUC这三个指标和Friedman检验来衡量算法的性能,设计了两大实验:从Bagging和Boosting两个改进方向设计对比实验,验证了两个改进方向的正确性和必要性;设计与其他经典算法的对比实验,并针对新算法的参数调节给出建议,结果表明bEnsemble和sEnsemble在三个指标下普遍优于其他算法,验证了在不同数据集和不同评价指标下新算法性能的有效性和稳定性。
其他文献
交通运输方式的改革对于地区产业结构升级具有突出影响,我国自2008年第一条高速铁路-京津城际铁路开通运营以来,已经发展出了长度居世界第一的高速铁路网。山东省作为我国经济人口大省,省内16个地级市发展水平呈梯度分布。早在2008年山东省就开通了第一条高铁-胶济客运专线,随着新开通高铁线路的陆续增加,预计2020年年底山东即将实现“市市通高铁”的成就。高速铁路对经济发展最直接的作用是大幅缩短了地区间的
学位
自1998年开始,国家住房市场实行货币化和市场化改革,国民生产总值中有相当部分被房地产投资所占,自此房地产业逐渐成为拉动我国经济增长的主要动力之一。与此同时,如何调控我国住房市场价格也成为政府部门关心的问题,如何在市场萧条时刺激市场,在市场过热时平抑价格,不同情况下的政策选择和政策的具体效果成为政府需要研究的问题。作为被广泛用于调控房地产市场的政策工具,货币政策自20世纪90年代以来就开始被我国政
自上世纪80年代以来,我国经历了大规模的国内劳动力转移,流动迁移者逐渐成为迁入地人口中越来越重要的组成部分,如何促进这一庞大的社会群体融入当地社会,提升他们的社会融入感,是我们新型城市化进程中所面临的重要问题。近年来流动人口的迁移越来越呈现出家庭化流动的新特征,新的迁移模式对流动人口的社会融入也带来了新的影响,而子女随迁是家庭化迁移模式中的重要一环。可以预见到,子女随迁与否及其所能接受的教育、医疗
时值脱贫攻坚战收尾之际,中国扶贫减贫工作成果将接受阶段性检验。改革开放以来,贫困问题一直是中国的重点关注问题,中国一直在积极探寻符合中国国情的扶贫减贫方式。在推进扶贫工作的过程中,金融扶贫是实现扶贫工作由“输血式”向“造血式”转变的重要途径,而金融扶贫的开展又与普惠金融的发展息息相关。中国于2013年正式提出大力发展普惠金融,通过为包括城镇低收入人群及贫困人群在内的重点对象提供可负担的金融服务,进
学位
制造业作为国民经济发展的支柱产业,是立国之本、兴国之器、强国之基,对我国发展举足轻重。高技术产业作为制造业至关重要的组成部分,近年来在制造业中所占比重越来越大。同时随着我国经济的发展,传统经济红利日益消退,我国可以通过制造创新红利来促进经济可持续发展,而高技术产业对新的创新红利的形成有着无可比拟的推动作用。世界上多个国家也越来越重视高技术产业的发展,我国政府也相应出台了《中国制造2025》规划,重
随着市场经济改革的深化,我国经济水平迅速发展,但是中国的收入不平等问题日益引起社会各界的广泛关注。而另一方面,在当前的经济背景下,家庭对子女的教育支出在家庭的消费支出中占很大比例,已有较多文献从家庭内部的特征来考虑影响家庭教育支出的各种因素,但少有文献从家庭外部环境方面来研究家庭教育支出增加的原因。因此,本文采用中国家庭追踪调查(CFPS)微观数据库,从社会地位寻求的视角,研究收入不平等对家庭子女
1994年分税制改革实施以来,事权和财权不对称作为最初诱因所导致的地方政府债务的问题开始出现。在政治晋升竞标赛的制度背景下,迫于区域间经济竞争的压力,许多地方政府融资平台应运而生,在资金筹措方面扮演着重要角色,与此同时地方政府债务问题也越来越严重。同时受2008年全球性金融危机的影响,中国的经济增速放缓,为了应对这一变化,中央政府采取了积极的财政政策,地方政府也是不断加大基础设施领域的投资,这进一
党的十九大报告指出,“就业是最大的民生”。就业不仅关系到个人和家庭的幸福与安康,而且关系到整个社会的稳定与发展。尤其是高校毕业生的就业,更是关系到国家高等教育的投资回报,以及高水平人力资本对社会经济政治文化等各方面的贡献。为此十九大报告特别提出,要“提供全方位公共就业服务,促进高校毕业生等青年群体、农民工多渠道就业创业”。为与时俱进提供更有价值的就业指导,更好地引导高校毕业生实现高质量就业,需要对
本文通过对临沂辖区32家银行业金融机构进行问卷调查,对供给侧结构性改革环境下县域银行业金融机构经营转型的趋势和特点进行分析,剖析转型中存在的问题,对其中28家县域银行的转型经营效率进行测算,并对转型绩效进行实证分析,以期能够对各行重新思考和审视县域金融的服务定位和转型发展有所启示。首先对县域银行转型的特点和趋势进行了分析,各行顶层设计方面把县域金融作为增加金融供给的着力点;服务定位方面从传统的基础
自2008年金融危机发生后,全世界范围内的积极财政政策相继不断地推出,用以应对金融危机带来的冲击。随之而来的政府债务急剧增加,美国政府债务达到上限,日本由2009年53万亿日元债务发行规模达到2014年的1009万亿日元,希腊等一些欧盟国家出现债务危机以及种种债务事件,引起了全世界的关注。我国政府债务规模也持续增大,尤其是地方政府债务规模增势迅猛。根据财政部发布的2017年地方政府债务余额情况显示