论文部分内容阅读
数据挖掘和机器学习是目前最热门的领域之一,如何进行快速高效的数据挖掘,从中获得有价值的信息就显得尤为重要。其中分类问题是一个很重要的研究课题,传统的分类算法虽然得到了较好的应用,但是其算法大部分都是建立在数据集分布均匀的条件下,一旦出现不平衡数据时,这些算法的分类效果将会大打折扣。 针对不平衡数据分类问题,特征选择方法可以用来筛选出有价值的特征,有助于分类器的分类预测。本文分析和讨论了结构化不平衡数据集和非结构化不平衡数据集中的数据分布及特征分布,并基于这两类不平衡数据集展开研究并设计了不同的特征选择算法。实验结果表明,所设计的特征选择算法能有效提高不平衡数据的分类性能,尤其是少数类的分类性能。 本文的主要研究工作包括: (1)分析了结构化不平衡数据集和非结构化不平衡数据集中的数据分布及特征分布,讨论了一些常用的特征选择算法的性能优劣; (2)针对结构化不平衡数据集,提出并设计了一种基于特征选择的改进型不平衡分类提升算法,从数据集的不同类型特征来权衡对少数类样本的重要性,筛选出对有效预测分类出少数类样本更有意义的特征,实验结果表明该算法能有效的提高不平衡数据分类的性能指标。 (3)针对非结构化不平衡数据集,在分析数据集特点的基础上改进原始特征选择算法,提出并设计了一种更适用于非结构化不平衡数据集的特征选择算法,实验结果表明该算法能有效的提高不平衡数据分类的性能指标。 (4)对上述算法进行了代码实现和实际分类效果的性能验证分析。