论文部分内容阅读
分类是数据挖掘领域的一项重要任务,它是学习出分类器模型并预测未知实例的类标号的技术。关联分类是一种具有规则多和分类精度较高的分类算法。基于支持度和置信度是目前关联分类算法中最为经典的一种框架,然而这种关联分类无法很好度量项集与类的关系,也没有考虑训练集中各类所占比例关系,导致在数据集类分布不均情况下分类效果并不理想。此外,不平衡数据的分类今年来已成为研究热点问题。在不平衡数据集中,某一类的样本数远小于其它类的样本数,而传统的分类技术是以寻求整体分类精度的最大化为目标,导致对小类样本的预测往往出现误判。但在现实实践中,小类往往具有更高的应用价值,错分小类具有很高的代价。因此,在不平衡数据分类问题中,提高对小类样本的辨识能力而没有以牺牲大类样本的准确率为代价,是具有极大挑战性的。针对关联分类和不平衡数据分类的这两个问题,本文的研究工作主要如下:首先,提出了基于支持度和增比率的改进分类算法ACSER。ACSER是对经典的基于支持度和置信度的关联分类算法进行改进,提取频繁项集增比模式作为候选分类规则集。同时,利用综合考虑多因素的规则强度度量对规则集排序和剪枝,使规则的优先级较合理,最终提高了分类准确率。其次,提出了基于自适应实例权重的在不平衡数据上的新关联分类算法ACIW。ACIW根据原始不平衡训练集中的每条小类例子到大类例子的距离远近,依次自动地增加各小类例子的权重,使越难学习的小类样本获得越高的权重值。对赋权训练集,采用改进关联算法ACSER进行学习,并构建分类器。实验结果显示,ACIW不仅有效提高了小类规则的数量和优先级,而且在保持较高整体分类精度情况下显著提高了对小类样例的识别率。最后,提出了基于自适应合成过采样在不平衡数据集上的集成学习算法ASMOTE-Boost。该算法先通过k-近邻方法找到噪声点,将其删除。再充分考虑数据的样本分布特点,根据小类样本难易学习程度决定自适应合成倍率,越难学习的合成率越大。通过F-measure和G-mean等度量的大量实验验证,表明本文的自适应合成过采样方法与集成学习Boosting相结合处理不平衡数据分类问题的有效性。