论文部分内容阅读
随着互联网技术的快速发展,在实际应用中出现了大量复杂的数据,这些数据往往带有多个标签类别。因此,从这些复杂的数据中获取有用数据就要付出更多的金钱、时间,资源等代价。所以,如何在有限的代价下,从高维的、多标签的数据中获取最有效的信息,已成为数据挖掘研究的热门问题。近年来出现的代价敏感学习在数据挖掘中起到了巨大的作用,而代价敏感特征选择又是代价敏感学习中一个比较典型的问题,其目标是在选取最优子集的过程中,要尽量减少测试代价、误分类代价或总代价。针对这一问题,学者们提出了启发式搜索算法,智能优化算法和很多其它优化算法,但是通常这些算法只收敛于局部最优或者其运行效率也不尽人意。非负矩阵分解方法和多标签学习理论能有效地处理海量的数据,己成为高维数据降维分析领域的重要研究方向。因此,本文在对现有非负矩阵分解算法、多标签学习理论和代价敏感学习深入分析和研究的基础上,通过将非负矩阵分解应用于代价敏感特征选择之中,多标签学习与代价敏感相结合,提出了基于非负矩阵分解的代价敏感特征选择算法和多标签背景下的代价敏感特征选择算法。本文将从以下两方面进行研究:一、针对代价敏感学习的特征选择问题,本文提出了基于非负矩阵分解的测试代价敏感特征选择方法。首先利用随机机制产生一批初始代价解,形成代价矩阵。其次在此基础上定义了基于矩阵分解的融合近似质量,并设计了测试代价的适应度函数。最后借助迭代算法进行问题的求解,筛选出最优特征子集。实验结果表明该算法在大数据集上运行的性能良好,获得具有较低测试代价的特征子集。二、基于单标签背景下代价敏感特征选择模型,本文进行了单标签学习与多标签学习之间的转化,并提出了多标签代价敏感特征选择算法。这一算法通过赋予较大权重给代价较高的样本,从而提高代价较高类别样本的预测准确性并选择出最优特征子集,最终达到降低总代价的目的。