【摘 要】
:
在机器学习和数据挖掘领域,将类别错分代价的概念引入到分类器的设计中被称之为代价敏感学习。在代价敏感分类问题中,代价矩阵通常假设是已知的,矩阵中每一个元素的具体含义
论文部分内容阅读
在机器学习和数据挖掘领域,将类别错分代价的概念引入到分类器的设计中被称之为代价敏感学习。在代价敏感分类问题中,代价矩阵通常假设是已知的,矩阵中每一个元素的具体含义是把某一类误分成另一类的代价。加权最小二乘法是处理代价敏感分类问题的典型方法。分配合理的权重到不同类别会大大提高分类模型的分类能力。然而在实际问题里,我们仅知这些权重依赖于代价矩阵,但很少见到如何根据代价矩阵确定这些权重。本文研究了一种ELM的加权最小二乘模型,它基于遗传算法从代价矩阵确定训练样本的权重。本文主要完成了以下工作:(1)研究了一种ELM的加权最小二乘模型,它基于遗传算法从代价矩阵确定训练样本的权重。代价敏感分类器能处理不平衡分类问题,同时能大大降低平均误分类代价。不同的权重对分类器影响不一样。分配合理的权重到不同类别将大大提高分类器的分类能力。实验结果表明,遗传算法能解决本文的研究问题。对于不同的数据集,加权最小二乘模型的总代价是近似最小的且得到与其对应的训练样本的权重。(2)研究了加权最小二乘模型中的代价矩阵与权重之间的关系。实验结果表明,就二分类和三分类而言,代价矩阵中某一列各个数字相加的代价越大,那么某类所对应的权重越大。原因是,某一列各个数字相加的代价越大,那么其它类误分成该类的代价就越大;权重越大,让分类边界远离该类,使得该类生存空间增大,从而提高被分配的样本落在该类的概率。同时,遗传算法的随机性对该结论影响不大。(3)用加权最小二乘模型的平均总代价与代价敏感ELM的总代价作比较。实验显示,就总代价的大小作为指标,加权最小二乘模型的平均总代价都比代价敏感ELM的总代价小。(4)用加权最小二乘模型的平均总代价与代价敏感朴素贝叶斯模型的总代价作比较。实验结果表明,就总代价的大小作为指标,加权最小二乘模型的平均总代价都优于代价敏感朴素贝叶斯模型的总代价。模型分析与实验结果表明了方法的有效性。进一步地比较显示,以总代价的大小作为评价指标,加权最小二乘模型远优于现有的代价敏感ELM和代价敏感朴素贝叶斯模型。同时,代价矩阵中某一列各个数字相加的代价越大,那么某类所对应的权重越大。
其他文献
首次公开募股(IPO)是一家上市公司最为重要的财务指标之一,也是公司进入资本市场的大门,进行融资的基本方式之一,IPO极大地影响着市场的资源配置效率,并且可以帮助公司在融资
目的:铁皮石斛Dendrobium officinale Kimura et Migo来源于兰科(Orchidaceae)石斛属(Dendrobium),作为我国传统的名贵中药材,具有益胃生津、滋阴清热等功效。主要有效成分为石斛
随着声波理论的发展以及雷达技术的进步,超声波在无损检测领域也得到了广泛的应用。利用超声Lamb波对结构进行损伤检测,可以系统地了解到结构内部是否有损伤,从而对结构进行
职业认同作为心理层面的内在驱动力,职业认同水平高的个体会产生职业成就感和满足感,有利于队伍整体发展。相反,职业认同水平低则会影响个体的工作积极性,影响队伍战斗力。面
随着经济社会的迅速发展,生活污水的产生量与日俱增,将生活污水进行回用成为解决水资源短缺的一个重要方法。曝气生物滤池(BAF)具有生物浓度高、菌群结构合理、耐冲击能力强、
本文通过添加乙酸对原始接种物进行梯度耐酸驯化,研究了驯化过程的产气情况以及酶活变化,对驯化接种物和原始接种物进行了pH值和挥发性脂肪酸(VFA)浓度耐受性以及微生物群落
丹参为唇形科植物丹参(Salvia miltiorrhiza Bunge)的干燥根和根茎,已广泛应用于各种心脑血管疾病的治疗。水杨酸结合蛋白(SA binding protein 2,SABP2)最初在烟草中发现,属于α/
我国刑法第310条对窝藏罪的对象规定为“犯罪的人”,而根据刑法第362条规定又使得窝藏的犯罪对象不仅限于“犯罪分子”。学界对窝藏罪犯罪对象进行了不同角度解读却不尽人意,究其原因还是现行立法不符合法律条文明确化要求,所以,将来修法应当将窝藏罪犯罪对象明确规定为罪犯、犯罪嫌疑人、刑事被告人。根据我国刑法规定,窝藏罪的行为方式表现有:提供隐藏处所、财物,帮助其逃匿。窝藏行为与知情不举不同,窝藏罪表现为明
隐形网络(Implicit Network)是在线社会网络的一种表现形态,在社会网络分析中扮演着重要的角色。隐形网络建立在丰富的用户信息基础上,如产品评论、互动交流以及个人资料,具
泡沫流体在石油工业中有着重要的应用,由于其热力学不稳定性,如何提高其稳定性是应用的基础和前提。开发新型的稳泡剂对于提高泡沫体系的稳定性和泡沫在驱油方面的广泛应用具