论文部分内容阅读
随着人们在通信、制造、研究等领域所获取的高维数据的积累,现有的数据挖掘、机器学习算法已经不能有效应对这些海量数据。特征选择通过消除不相关特征和冗余特征达到对高维数据降维的目的,其有效的提高了数据挖掘算法的效率、精度等性能以及后续学习结果的可理解性。传统的特征选择算法都是基于类均衡这一前提提出。然而,现实生活中还存在着众多的类不均衡问题。另一方面,传统的特征选择算法也未能考虑到现实应用中存在的代价敏感问题,其在特征选择过程中未曾考虑不同类别样本的不同错分类代价。因此,本文对类不均衡问题和代价敏感问题进行研究,提出了能够在特征选择阶段解决以上问题的代价敏感特征选择算法,并进一步对基于邻接图的代价敏感特征选择算法进行了改进。主要创新和研究工作总结如下:(1)结合代价敏感学习算法的思想,将代价敏感信息引入传统的特征选择算法中,提出了代价敏感特征选择算法CSVS、CSLS、CSCS。代价敏感特征选择算法能够在特征选择阶段解决降维问题、类不均衡问题和代价敏感问题,其在公共数据集UCI以及软件缺陷预测数据集NASA上均获得了很好的性能。(2)针对Cost-Sensitive Laplacian Score算法所基于的邻接图构建后不变的缺点,提出了基于迭代思想的Iterative Cost-Sensitive Laplacian Score算法。该算法通过迭代构造邻接图,有效地提高了特征评价准则对每个特征的评估准确性。其在UCI数据集以及NASA数据集上获得了良好的性能。(3)通过将代价敏感特征选择算法引入软件缺陷预测领域,并结合代价敏感学习算法,提出了基于双重代价敏感学习的软件缺陷预测模型。该模型有效地解决了软件缺陷预测领域的类不均衡问题和代价敏感问题,在软件缺陷预测数据集NASA上的结果充分证明了其有效性。