论文部分内容阅读
多标记学习是监督学习中一项基础且重要的任务。随着机器学习和深度学习技术的蓬勃发展,多标记学习成功地应用在信息检索、推荐系统和蛋白质功能预测等领域。尽管当前关于多标记学习的研究工作取得了巨大进展,但目前关于多标记学习的研究往往基于强监督假设:假设每个训练样本的标注信息完全准确。然而,由于收集完全正确标注的训练样本往往需要耗费大量的时间和费用,并且受数据本身特点、标注者差异性和外部环境等因素的影响,这一假设在现实世界中是不切实际的。为更好解决这一实际问题,本文研究噪声环境下的多标记学习问题。近年来,噪声环境下的多标记学习问题的研究范式主要为偏多标记学习。在偏多标记学习中,每个训练样本的标记集合由真实标记和噪声标记共同构成。现有的偏多标记学习方法主要集中在如何减小噪声标记对多标记分类器性能的影响,以学习一个鲁棒的多标记分类器。为实现这一目标,一些方法旨在识别每个训练样本的真实标记,而另外一些方法主要通过低秩假设和稀疏假设建模偏多标记学习问题。然而现有的方法存在以下一些问题:(1)现有方法忽略了训练样本的特征与标记的负面信息对其真实标记的影响;(2)现有方法都不能很好甚至无法处理标记空间过大的问题;(3)现有偏多标记学习方法的假设仍旧较强,从现实世界中收集到的训练样本不一定都包含噪声标记。针对现有工作存在的不足,本文从以下三个方面学习噪声环境下的多标记学习问题:(1)现有偏多标记学习方法忽略了训练数据特征与标记之间的负面信息。具体来说,如果两个样本的候选标记集合有很大的重叠部分,不管它们的特征相似度如何,它们的真实标记应该是相似的;而如果它们在特征和候选标记空间中不相同,则它们的真实标记应该彼此不相同。针对这一现象,为了在偏多标记学习数据上实现可靠的预测,本文提出了一种新的基于标记与特征合作的偏多标记学习方法(PML-LFC)。PML-LFC利用样本的候选标记集合计算样本之间的语义相似度并与样本特征相似度相结合协同估计每个训练样本的标记置信度,并且用估计的标记置信度矩阵训练所需的多标记分类器。PML-LFC通过统一模型以交替优化的方式实现分类器和潜在标记置信度矩阵的学习。大量的实验结果表明,PML-LFC可以很好地利用样本的特征信息和标记信息估计标记置信度矩阵以减小噪声标记的影响,并且PML-LFC可以学习一个鲁棒的多标记分类器提升分类性能。(2)当标记空间过大时,现有的偏多标记学习方法普遍存在计算代价高昂甚至无法处理的问题。为解决这一问题,本文提出了一种基于标记压缩的偏多标记学习方法(PML-LCom)。PML-LCom首先将观测到的样本-标记关联矩阵分解为一个潜在的真实标记矩阵和一个不相关的噪声标记矩阵,然后将真实的标记矩阵分解为两个低秩矩阵的乘积,其中一个矩阵对样本的压缩标记进行编码,而另一个矩阵探索低维空间中的标记相关性。其次,PML-LCom通过压缩后的低维标记矩阵学习多标记分类器的系数矩阵。此外,PML-LCom根据样本特征相似度对压缩后的标记矩阵进行正则化,并对标记矩阵和分类器进行联合优化。在合成和真实偏多标记数据集上的实验结果表明,标记压缩可以有效提高算法的有效性和效率,PMLLCom在预测大标记空间下未标记样本的标记方面取得了优于现有解决方案的性能。(3)针对偏多标记学习方法假设每个训练样本一定存在噪声标记这一假设仍旧不是十分符合一些现实场景的问题,本文提出噪声环境下基于标记纠正的多标记文本分类方法(LCN)。与偏多标记学习假设每个训练样本的标记以候选标记集合方式给出不同,LCN假设数据在标注时每个训练样本的非真实标记有一定概率转化为其标记,即噪声标记。LCN通过一种端到端的方式实现标记纠正和多标记分类器的联合学习。LCN包含两个模块:标记纠正模块和分类模块。在标记纠正模块中,LCN利用标记语义信息和特征信息学习每个类的类别原型集合。这些原型被用来计算与提取的深度特征之间的相似度以纠正每个训练样本的标记。在分类模块中,分类器将每个样本的原始标记和纠正后标记结合,一起作为监督信息指导分类器训练过程。这两个模块通过统一框架结合在一起,并通过交替优化方式训练。在两个多标记文本基准数据集上的大量实验结果表明,LCN可以有效地降低噪声标记对分类器性能的影响,表明其优于现有的方法。