【摘 要】
:
非平衡数据集的分类问题是机器学习领域的一个研究热点。针对非平衡数据集分类困难的问题,特别是由于非平衡分布引起的少数类识别能力低下的问题,提出了一种改进算法,AdaBoos
【机 构】
:
浙江大学智能系统与控制研究所工业控制技术国家重点实验室
论文部分内容阅读
非平衡数据集的分类问题是机器学习领域的一个研究热点。针对非平衡数据集分类困难的问题,特别是由于非平衡分布引起的少数类识别能力低下的问题,提出了一种改进算法,AdaBoost-SVM-OBMS。该算法结合Boosting算法和基于错分样本产生新样本的过抽样技术。在新算法中,以支持向量机为元分类器,每次Boosting迭代中标记出错分的样本点,然后在错分样本点与其近邻间随机产生一定数量与错分样本同一类别的新样本点。新产生样本点加入原训练集中重新训练学习,以提高分类困难样本的识别能力。在AUC,F-value和G-mean 3个不同价格的评价指标下8个benchmark数据集上对AdaBoost-SVM-OBMS算法与AdaBoost-SVM算法和APLSC算法进行了对比实验,实验结果表明了AdaBoost-SVM-OBMS算法在非平衡数据集分类中的有效性。
其他文献
进入6月份以来,云南昆明蔬菜的外销量明显减少,嵩明大白菜批发价格下跌80%仍无人问津。根据昆明市各县市区蔬菜生产主管部门统计,7月份全市蔬菜预计上市量为17385万多公斤,同比增2
以狼山鸡和鹿苑鸡为研究对象,利用DNA测序技术测定线粒体细胞色素C氧化酶亚基Ⅰ(COⅠ)基因序列,探讨COⅠ基因的特定区段作为DNA条形码在识别地方鸡品种方面的可行性和有效性
以100mg·L^-1二乙基亚硝胺(DEN)诱发大鼠肝癌16周,同时分别饲喂含硒0.3、1.0、3.0mg·kg^-1富硒麦芽和含硒3.0mg·kg^-1亚硒酸钠饲料,停止诱癌及补硒处理2周后,处
按植物偏爱密码子设计合成一种新型降钙素基因相关肽基因(mcgrp),构建植物双元表达载体p35S-2300::mcgrp::noster,通过农杆菌介导法转化番茄,获得卡那霉素抗性植株27株;经PCR和Southern
研究了蓝莓、枸杞、白砂糖和蜂蜜4种原料的添加量对蓝莓枸杞复合饮料的影响,采用正交试验,研究不同原料配比对蓝莓枸杞饮料感官品质的影响,得到最佳配方为蓝莓汁添加量12%,枸
(一)坚持用软水软水无咸味、不含或少含矿物质,如雨、雪水以及未受污染的河、湖、塘水属软水,经自然沉淀后可作为冷却水;井、泉属硬水,长期使用,必然形成大量的矿物质沉淀(水垢),严重影
国家统计局9月中旬发布的调查报告显示,中国农民工就业形势好转,外出就业已基本恢复,农民工外出未就业比例较低,但农民工参加社会保险的比例不高;
会计信息的质量与信息使用者的利益密切相关,财政监督部门作为一个政府机构,因其有其权威性和影响力,本文从财政监督检查的角度谈一下如何更好的保障会计信息的质量,保障利益
为了分析可溶性MHCⅠ类相关分子A-(sMICA)对淋巴细胞活化性受体NKG2D及早期活化标志性受体CD69表达的影响,从U937细胞中经RT-PCR扩增出sMICA的cDNA片段,经酶切后插入原核表达载体
今年内,四川省成都市民将有望喝上国内最先进的“绿色牛奶”。日前,双流县金桥镇大型奶牛场里,技术人员将一种从德国引进的芯片安装到1000头奶牛的耳朵上。如何保证牛奶安全?“最