【摘 要】
:
随着经济及科技的发展,当今处于信息爆炸的时代,大数据处处存在,其中分类数据尤为常见。在分类数据中,以往的方法大都关注平衡数据的分类问题,其中有线性判别分析、二次判别
论文部分内容阅读
随着经济及科技的发展,当今处于信息爆炸的时代,大数据处处存在,其中分类数据尤为常见。在分类数据中,以往的方法大都关注平衡数据的分类问题,其中有线性判别分析、二次判别分析、支持向量机、Logistic模型及boosting等。这些分类方法都是基于不同类别样本数平衡的前提假设下进行训练学习,对于不平衡分类,其整体的较高预测准确度往往归功于多数类的精度,而忽略了少数类的分类精确度。因此,传统的分类方法不能直接应用来处理不平衡数据。本文针对不平衡二分类问题,基于Logistic模型,从算法和数据采样两个层面来提出改进的Logistic分类方法,以此来达到提高少数类分类准确率的目的。普通Logistic分类通常选择α=0.5作为阈值,为了处理不平衡数据,本文提出对阀值α进行自适应的选择以达到提升少数类分类准确率的目的。数据采样层面的想法是对多数类进行分层采样,再应用Logistic方法、随机森林、支持向量机、神经网络等机器学习方法对生成新的近似平衡的子集数据进行分类。最后,应用本文所建议的方法来分析信用卡违约数据,实际数据结果证实本文所提的方法能够有效的提高不平衡数据的分类性能。
其他文献
汞是一种具有高毒性的微量重金属元素,在自然环境中可经过生物及非生物作用转化成毒性更强的有机化合物形态,如甲基汞(MeHg)。已有的研究表明稻田由于灌溉淹水使得稻田土中汞
目的:本课题通过回顾近5年我院风湿病科住院病人应用昆藤通痹合剂治疗活动性类风湿关节炎的情况,分析其临床疗效及不良反应,为昆藤通痹合剂的临床推广使用提供参考。方法:制定病例资料收集表,设立纳入标准、排除标准及剔除标准,在嘉禾电子病例系统初筛我院近5年来(2013年01月01日至2018年01月01日)应用昆藤通痹合剂治疗的活动性类风湿性关节炎住院患者的病例资料。在资料收集表上记录可研究病例,并分为3
产权式商铺起源于西方国家的时权酒店,并由时权酒店逐渐发展而来。随着房地产市场的不断发展,市场竞争日趋激烈,以分时度假为特点的时权酒店的投资方式,逐渐演变出了一种新的
目的探讨UW液在大鼠断肢再植术中的应用效果,探求简单易行的离体断肢的理想保存方法。方法健康成年SD雄性大鼠120只,体质量320~350g,按断肢保存开始到再植术中血管吻合通畅的
基金公司实地调研是否会遏制上市公司的负面信息隐藏行为,降低上市公司的股价崩盘风险。为回答这一问题,本文在负面信息隐藏理论的框架下,检验基金公司实地调研与股价崩盘风
收入时点的确认是国际收入准则制定中争议最大的问题,而软件行业是受该争议影响最明显的行业。2017年7月我国财政部修订发布了《企业会计准则第14号——收入》,给企业收入确
代谢型谷氨酸受体(Metabotropic glutamate receptors mGluR)作为谷氨酸受体家族的一员,是一种重要的神经递质受体,主要存在于哺乳动物神经细胞中,该受体是G蛋白偶联受体(G prot
运用心理学、美学的研究成果,分析了视觉感知过程中家电产品外观特征与用户知觉活动的关系,探讨了产品设计情感表达所涉及的多种因素。通过分析当前国内家电产品外观设计的现
目的观察局部125I粒子植入治疗联合丹皮酚灌胃对A549裸鼠肺癌移植瘤的抑瘤效果,并探讨其可能作用机制。方法 Balb/c裸鼠52只,均制作A549裸鼠肺癌移植瘤模型,随机分成A、B、C
腰椎间盘突出症是由于某些因素,主要是劳损引起的脊柱内外平衡失调而造成纤维环的破裂,髓核突出压迫马尾和神经根部,产生腰痛和坐骨神经痛.是临床上常见病、多发病之一.根据