论文部分内容阅读
监督学习是应用最为广泛的机器学习范式之一,监督学习算法可以在数据驱动下有效地学习特征空间到标记空间的映射关系。但当训练数据中出现错误标记时,基于监督学习范式训练的模型会学习到错误的映射关系,导致模型的泛化性能下降,这样的问题被称为噪声标记问题,错误标记也被称为噪声标记。标记多义性是引起噪声标记问题的重要原因之一,标记多义性的示例没有明确的类属性特征,在标注过程中更容易被错误标记,从而产生噪声标记问题。标记分布是一种新型的标记方式,它为每个关联标记都赋予了表示类别描述度的连续型数值,在处理标记多义性问题上具有天然的优势。在噪声标记问题中,标记分布记录了全部关联类别上的描述度信息,这对于定位噪声标记和挖掘真实标记具有重要的价值。基于这样的认知,本文针对噪声标记问题提出了基于标记分布的解决方案,具体的研究工作将围绕通过标记分布来进行标记消歧的思路展开。标记与示例的关联性具有二值化属性:1表示具有相关性,0表示不具有相关性。根据这一性质,可以将标记噪声划分为两类形式:一类是无关标记翻转为相关标记,另一类是相关标记翻转为无关标记,这两类噪声形式的组合构成了噪声标记问题的多样性。本文首先研究了仅包含一类噪声形式的噪声标记问题:偏多标记学习(Partial Multi-Label Learning,PML)问题。在PML问题设定下,每个示例关联一组候选标记集合,其中仅有部分标记是示例的真实标记,其余标记均为噪声标记。研究工作采用了基于标记分布的标记消歧策略来差异化候选标记集合中的真实标记与噪声标记,并通过实验验证了标记分布解决PML问题的有效性。接下来,本文考虑了同时包含两类噪声形式的噪声标记问题:噪声标记学习(Learning with Noisy Labels,LNL)问题。在LNL问题设定下,存在一个无关标记被标注为关联标记,而原本真实的关联标记被错误标注为无关标记,这使得噪声标记的形式更加复杂。为了解决这类噪声标记问题,本文提出了基于标记分布的标记置信度生成算法来检测标记的质量,检测结果被用于辅助模型的训练。上面两部分的研究工作验证了标记分布在噪声标记问题中的适用性和可扩展性。本文共分为五章。第一章主要介绍了噪声标记问题的研究背景以及本文的研究内容。第二章详细介绍了标记分布的定义和相关的研究工作。第三章介绍了基于标记分布解决偏多标记学习问题的研究。第四章介绍了应用标记分布解决更加复杂的噪声标记学习问题的研究。第五章对全文的内容进行了总结和展望。