论文部分内容阅读
随着互联网技术的发展,信息增长速度越来越快,数据挖掘已成为当今的研究热点,不平衡数据分类就是其中一个重要的分支。在知识挖掘之前需要对繁杂的数据进行处理,数据预处理中重要的方法之一就是连续属性的离散化。而现有的绝大多数离散化方法都有一个默认的前提条件:数据集中不同类的样本数大致相同,若将这些算法直接作用到不平衡数据集上,算法都将偏重于拥有多数样本的负类,而容易忽视我们更关心的少数类,无法取得合适的离散化方案,不利于后续的学习。此外,数据规模的不断增加对算法的运行速度也提出了挑战,利用GPU并行计算是解决这类问题的一个新趋势。因此,如何有效离散化不平衡数据和加快算法运行速度是本文的主要研究内容。针对不平衡数据的连续属性离散化问题,本文基于类-属性关联设计了一个新的离散化算法CARU。在分析类与属性的二维量化矩阵后充分考虑数据的分布情况,结合多个离散化标准定义了一个新的离散化准则CARU。利用该离散化准则设计实现了CARU算法。该算法从候选断点集中选取最佳的划分断点,得到较优的离散化方案,更有利于后续的分类学习。同时,分析在不平衡数据预处理中,离散化方法和SMOTE抽样技术组合后对后续分类结果的影响。最后实验结果的非参数检验表明,在36组不平衡数据集上与其他5个经典的离散化方法相比,本文算法更适合用于不平衡数据的连续属性的离散化;不同离散化方法结合SMOTE抽样技术后,本文算法由于选取的断点较合理从而造成的信息损失最少,相比其他离散化算法在后续分类中有更好的性能提升。针对加快CARU算法在处理大规模数据时的运行速度问题,本文基于GPU计算平台实现了并行CARU算法。通过分析CARU算法过程中的几个关键的计算步骤:不同属性值的排序、离散化准则的计算、拥有最大准则值的断点选择,以及不同属性之间的离散化,利用GPU并行计算的优势设计实现了并行CARU算法,此模型可扩展到多个GPU设备上使用。最后基于GPU并行的CARU算法与基于CPU串行的CARU算法的运行时间对比表明,在数据规模较大时,前者运行速度有更大的提升,在最好的情况下,双显卡与24个CPU线程相比,加速比可达6.7。