论文部分内容阅读
为对现实世界的多语义性对象准确建模,多标签学习框架假设每个对象同时关联多个类别标签,其目标是通过学习得到一个能够为未见示例分配所有相关标签的预测模型。区别于传统分类框架中认为标签是独立存在的观念,多标签学习问题中不同标签间存在相互关系,且大量工作表明通过挖掘标签相关性可以有效地提升分类器性能。因此本文从考虑标签相关性出发,研究了基于标签相关性的多标签分类算法,主要开展的研究工作如下:1.针对基于类属属性的多标签学习算法未考虑标签相关性的问题,提出了一种基于标签相关性的类属属性多标签学习算法。该算法先引入标签距离来度量标签对的相关性,并以此划分出待学习标签的相关标签;然后,通过在类属属性空间附加相关标签的方式完成原始特征空间的拓展以及标签相关性的引入;最后,在7组多标签基准数据集上进行实验,并与其它代表性的多标签算法进行对比分析,实验结果表明所提算法在多个评价指标上的性能平均提升7.46%,验证了本文所提出算法的有效性。2.针对基于标签依赖的K近邻多标签学习算法在考虑标签间关系时忽略了样例和标签多样性的问题,提出了一种基于局部标签相关性的K近邻多标签学习算法。该算法通过考察每个未见示例近邻的标签分布情况来引入局部标签相关性,并用于优化算法中边距向量值的设置。在7组多标签基准数据集上开展了实验验证,分析了5种多标签评价指标的对比实验结果,实验结果表明本文所提出的算法在单一错误、排序损失、平均预测精度等指标上的分类性能均有提升,验证了本文所提算法的有效性。3.将所提出的两种基于标签相关性的多标签分类算法应用于新闻文本分类问题,在6组多标签新闻基准数据集以及1组从搜狐新闻收集的新闻数据集上进行了实验验证,实验结果表明本文所提出的算法在新闻数据集上有较高的分类准确率。