基于采样处理的不平衡数据集问题的分类学习

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:danan1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息时代,数据的分类是一个重要的研究课题,尤其对于不平衡数据集的分类研究来说.在实际生活中存在着大量的不平衡数据集实例,在不平衡数据集中,少数类样本由于数量上较少,分布相对稀少,而且往往被大量多数类样本包围,在分类过程中面临着巨大的挑战.在实际应用中,少数类样本分类错误产生的代价往往更大.因此在不平衡数据集的分类过程中,如何提高少数类样本的分类表现具有重要的意义,也更应该得到关注.在数据处理层面,过采样算法是通过人工合成少数类样本来达到数据集各类别数据样本之间数量上趋于平衡的方法.随机过采样技术通过简单的复制来增加少数类样本的个数,一定程度上提高了少数类的分类准确率,但其并没有增加有效的少数类样本信息,会导致样本的重叠和过拟合现象.2002年Chawla等人提出了一种向上采样合成少数类技术(Synthetic minority over sampling technique)SMOTE算法,基本思想:通过寻找少数类样本的同类k近邻样本,根据采样倍率在k近邻样本中随机选择几个样本,然后在少数类样本间进行线性插值,人工合成少数类样本,改善了样本的重叠和过拟合现象.但SMOTE算法是所有的少数类样本均参与新样本的合成,忽略了边界样本对于分类性能的作用和影响.鉴于此,Han等人在SMOTE算法的基础上提出了Borderline-SMOTE算法,基本思想:仅利用边界上的少数类样本来合成少数类样本,一定程度上提高了少数类样本的分类准确率.但此算法在选择边界样本时是利用k近邻规则,然而k近邻选取的不同,影响着边界样本的选取,存在着一定的局限性.本文提出一种新的边界样本选取方法DBSMOTE算法,并提出新的合成少数类样本规则.DBSMOTE算法的基本思路:首先,计算每个少数类样本与多数类样本间的距离和,并求其平均距离;其次,将距离小于平均距离的少数类样本选为边界样本;再次,利用随机规则合成少数类样本;最后,把合成的新样本和原有的样本合并为新样本集,并采用k近邻分类算法对其建模学习.数据实验结果表明,该算法有效地提高了少数类样本的分类表现.由于数据集中样本较少,过采样方法和欠采样方法都有不足,过采样会使数据集中的少数类样本过拟合,而欠采样方法会丢失许多样本的信息,组合方法能够有效地解决这两种问题;其次,已经有人研究过将这两种采样方法结合,实验结果表现出良好的效果.本文提出一种将过采样Random-SMOTE算法和欠采样算法结合的方法,理论分析和数据实验结果表明,组合算法能有效地提高了少数类样本的分类表现.
其他文献
为了提高成人高等教育的教学质量,结合我校成人"专升本"生理学教学的实际情况,从优化教学内容、改革教学方法和提高教师自身素质等几个方面,对生理学教学实践进行了一些探索
基于认知无线电的频谱共享方案,是提高230MHz窄带专网频段频谱资源利用率,实现专网宽带化的有效解决办法。认知用户依靠频谱检测发现并伺机占用授权用户没有使用的空闲频谱。
为了获得P型的长波长InAsSb材料并研究掺杂剂Ge对材料特性的影响,用熔体外延法生长了掺Ge的波长为12μm的P型-InAsSb外延层.用傅里叶红外光谱仪、VanderPauw法和电子探针微分析