【摘 要】
:
过采样算法是一种数据级的不平衡学习算法,SMOTE算法是过采样算法中经典的算法之一。该算法被广泛应用于实际的不平衡分类问题中。然而,SMOTE算法存在选择近邻少数类样本具有盲目性的缺陷。因此,结合聚类算法是一种解决思路。但是,现有基于聚类算法的SMOTE算法仍存在对边界样本关注不足、合成样本质量无法保障以及簇的权重分配不合理等缺陷。为了能够更准确地发现不平衡数据集中各种形状的簇,本文提出了一种基于
论文部分内容阅读
过采样算法是一种数据级的不平衡学习算法,SMOTE算法是过采样算法中经典的算法之一。该算法被广泛应用于实际的不平衡分类问题中。然而,SMOTE算法存在选择近邻少数类样本具有盲目性的缺陷。因此,结合聚类算法是一种解决思路。但是,现有基于聚类算法的SMOTE算法仍存在对边界样本关注不足、合成样本质量无法保障以及簇的权重分配不合理等缺陷。为了能够更准确地发现不平衡数据集中各种形状的簇,本文提出了一种基于角度和方向的聚类算法,并将该算法与SMOTE算法结合设计出一种新的过采样算法,能够有效提升不平衡分类的性能。本文的主要工作和创新点具体如下:(1)基于角度和方向的聚类(Angle and Direction Based Clustering,ADBC)算法。针对DBC算法存在难以检测相邻密度不同的簇、没有考虑离群点和最大偏离角设置困难问题,ADBC算法通过计算点的角度方差过滤离群点,并选取出每个点的信任密集邻居,其中信任密集邻居为该点的反向最近邻居。然后,使用Fisher最优分割法自适应划分邻域内的点获取信任邻居集合,从而找出可靠的标签传递方向,通过标签传递完成聚类。在合成数据集和真实数据集上,对ADBC算法从聚类效果和参数敏感度两个方面进行实验,验证了ADBC算法能够有效发现相邻密度不同的簇,且参数设置简单、敏感度弱,聚类结果不易受参数影响。(2)基于角度和方向的过采样(Angle and Direction Based SMOTE,ADSMOTE)算法。针对现有的基于聚类的SMOTE算法缺少对边界样本的关注、合成样本的质量无法保障和簇的权重分配不合理等缺陷,ADSMOTE算法使用ADBC算法对数据集进行聚类,然后,利用样本的角度方差能够学习到其在边界的点分布情况,并提出了连续邻居的概念,计算根插值权重、辅助插值权重和最佳插值邻域,结合簇中少数类样本的权重对簇插值权重进行分配。在真实的不平衡数据集上,使用ADSMOTE算法对数据集进行过采样,通过分类器进行训练与验证,与其他过采样算法相比,ADSMOTE算法能够提升分类器的F1-score和AUC性能。
其他文献
随着物质水平的全面提高,通过体育活动进行健身成为了很多人的选择,体育馆这类建筑就成了城市里重要的公共建筑之一。对于大学体育馆,除了在比赛时使用之外,同时还要承担学校学生集会及开学典礼等非运动行为,其空调设计除了应该满足比赛场对运动及观看的舒适性外,还必须满足大型学校集会时的舒适度。而在对已经建造好的体育馆进行空调系统改造时,再采用座椅送风的方式难以实现,需要采取一种新的空调系统送风方式,在不改变建
目前锂离子电池因其低能量密度已无法满足日益增长的市场需求,开发新型高能量密度储能体系十分重要。锂-硫电池具有高理论比容量、高能量密度、低成本和安全环保等优势,有望替代锂离子电池成为下一代储能体系。然而,硫单质的低电导率、较大的体积膨胀和循环过程产生的“穿梭效应”等问题阻碍了锂-硫电池的商业化应用。针对上述问题,本文通过开发新型负硫材料和设计功能化粘结剂来缓解“穿梭效应”和提高锂-硫电池的活性物质利
世界汽车总量的迅速增加带来能源、环境和安全等问题,汽车轻量化是解决以上问题的关键途径。在汽车轻量化材料技术发展中,双相钢作为实现轻量化的理想材料,具有低屈强比和良好的碰撞吸能效果,但其塑性低,成形工艺过程中容易出现局部颈缩而破裂。近年来,非线性加载情况下双相钢成形极限的预测研究引起人们的关注,研究表明在预应变下材料表现出不同的力学性能和成形性能。目前双相钢在塑性变形理论下的材料应力应变关系和极限判
容积率是控制性详细规划编制中开发强度的核心指标,其取值与经济、环境、社会等因素息息相关。随着城镇化的急剧发展,城市建设开发活动愈发迅猛,为了合理集约利用城市土地、避免城市问题,亟需对容积率这个核心指标进行合理控制。近年来,我国城市发展逐渐由外延式扩展向内涵式增长转变,独立居住地块开发模式在目前居住用地开发建设活动中逐渐占据主导地位。本文拟从地块层面出发、因地制宜地确定容积率指标。然而现有的居住地块
自第二次世界大战结束以来,随着全球经济、文化的复苏与进步,建筑设计的发展也迈入了一个新的纪元,其技术、艺术和空间领域的理论与实践研究都取得了突破性的进展,建筑设计与其他领域理论研究的交融也得到了更多的关注与尝试。博览建筑作为一种社会历史文化和精神文明的重要物质传播媒介,其高度的公众参与使其对建筑空间体验有着高品质的要求。参观者在博览建筑中的活动不仅包括对展品的观摩学习,也涉及对博览建筑空间序列的游
骨骼作为人体最重要的支撑结构,其力学性能研究对损伤生物力学发展有着重要意义。骨骼的组成成分和微观结构的非均一性可能造成其力学性能在轴向和周向上存在差异,厘清这种差异对了解长骨的真实力学性能有着重要作用。目前,已有学者对周向上骨骼力学性能变化进行了研究,但由于试样制备以及测试方法之间有所差别,获取的试验结果不尽相同,并且探究骨骼轴向上力学性能变化的研究有所缺失。因此,有必要探究骨骼的力学特性在轴向和
电网换相换流器型高压直流输电(Line Commutated Converter based High Voltage Direct Current,LCC-HVDC)凭借传输容量大、传输距离远、功率调节灵活等优势,在我国跨区域电能传输中得到广泛应用,是我国“西电东送”战略的重要支撑技术。换相失败故障是LCC-HVDC系统运行的常见故障,直流系统发生换相失败后,若调节不当可能引发连锁故障,甚至导致
手性环氧化合物是一种十分重要的有机合成中间体,在药物合成领域有着广泛应用。烯烃的不对称环氧化反应是合成手性环氧化合物的重要途径。均相手性离子液体催化剂可以高效地催化烯烃的不对称环氧化反应,但存在着催化剂难以从催化体系中分离回收的问题。多相手性聚离子液体催化剂易分离回收,但由于其催化活性中心不能够与反应底物充分接触,使得其催化活性往往低于均相手性离子液体。因此,设计合成一种高效且可重复使用的手性聚离
容积率作为控制性详细规划中重点控制的指标,在指导开发建设上具有极强的法律效力。居住是城市的基本功能之一,居住用地容积率是影响其建设和使用的重要指标。从城市宏观尺度来看,目前控规制定的容积率指标突破总规所预测的开发总量的现象屡屡存在,导致总规所预测的容量无法向下有效的传导。而从微观尺度来看,单个居住地块根据用地面积、日照间距、停车数量等不同,其微观尺度的居住用地容积率需求也各不同。在此背景下,本文着
利用可再生电力将二氧化碳(CO2)电化学转化为多种具有商业价值的燃料和化学品,是减少大气二氧化碳排放一种极有潜力的方法。在电催化二氧化碳还原反应中,高效稳定的催化剂对实现还原产物的高选择性、低过电位与大电流密度起决定性的作用。然而,高催化活性、高选择性与高催化稳定性催化剂的合理设计与可控制备依旧面临着巨大挑战。在众多二氧化碳还原产物中,甲酸和乙醇因其较高的经济价值和能量密度引起了广大研究工作者的关