论文部分内容阅读
近年来,随着机器学习领域的迅速发展,分类问题作为机器学习领域一个重要问题得到广泛研究和应用。分类问题通常指单标签分类,即将未知实例划分到单一类别中,然而现实世界中的许多应用场景是多标签的,即实例同时归于多个类别之中。多标签分类最早应用于文本分类中,现在已在图像标注、音乐情感分类、生物信息学、信息检索等多个场景得到研究和应用。多标签特征选择算法和分类算法是多标签研究领域的两个重要部分,由于多标签的特性使得特征选择算法相较单标签特征选择更为复杂,而现在已有的多标签分类算法仍有很大的改进空间。本文对多标签特征选择算法和多标签分类算法两方面进行研究,主要工作如下:(1)提出了基于遗传算法和最大相关最小冗余的多标签特征选择算法(MLFS-GM)。MLFS-GM算法基于遗传算法和最大相关最小冗余策略:考虑标签之间的相关性,特征之间的冗余性以及特征与标签之间的相关性,用信息论中的互信息建模相关性和冗余性,从而给出遗传算法的特征集适应度函数。在多个多标签公开数据集上的实验表明,本文算法在绝大多数评价指标上优于同样基于遗传算法的GA-ML-CFS算法和采用信息增益建模标签与特征相关性的MLFSIE 算法。(2)对于传统分类器链方法中错误传递和链序随机生成的问题,提出了基于标签集划分和贪心策略的多标签分类器链算法(CC-LPGS)。CC-LPGS算法由两步构成,首先根据互信息建模标签之间的相关性,运用对称不确定性构造标签集的相关性图及相关性矩阵,进而应用NJW谱聚类算法对标签集进行聚类划分。其次对于每个划分的标签子集,采用贪心搜索策略迭代生成该标签子集的完整分类器链。将训练集随机划分为构建集和评价集两个部分,构建集用于训练候选分类器子链,评价集用于评价候选分类器子链性能,每次选择评分最高的分类器加入分类器子链中,迭代地生成完整分类器链。在多个数据集上的实验表明,CC-LPGS算法在各多标签评价指标上均优于传统的分类器链算法,在部分指标上优于其他多标签分类器算法。