基于不平衡数据集的机器学习算法研究

来源 :统计与决策 | 被引量 : 0次 | 上传用户:xiaojas
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在应用机器学习构建数据模型的过程中,经常会面临类不平衡性的问题,在许多研究中,降低数据集的不平衡性多采用欠抽样法来进行处理,再应用C4.5、NB、LR、RF、KNN等机器学习算法进行数据建模。实验结果往往表明,欠抽样法得到的模型准确度并不尽如人意,原因是这种方法是在牺牲负样本的预测精度前提下来提高整体精度的,因此,文章试图在尽量不减少原数据集中有用信息丢失的前提下采用重复抽样法进行数据处理可以有效弥补欠抽样法所带来的信息损失,进而提高模型精度。
其他文献
文章对改造后的提升机制动系统的工作原理作了简单说明,从理论上提出了改造后主要参数的详细计算方法,总结了改造后制动系统的优点.
针对影响沥青混凝土搅拌设备干燥滚筒热效率的因素进行了分析,重点介绍了燃烧系统、排气系统、生产原材料等外部因素对干燥滚筒热效率造成的影响,并且也论述了由于干燥滚筒自身
提出了一种目标规划方法来解决各生产形式成本、客户需求和机器能力均含不确定参数的多目标多产品综合生产计划的决策问题。通过对区间数的优化处理和合理的目标规划,将不确
由于生产的转移及瓦斯涌出量的增加,目前的矿井通风系统已不能满足需要,必须进行通风系统改造。文章提出了改造方案,并对拟采用方案进行了经济预测分析。