论文部分内容阅读
在强监督学习中,每个示例有着明确的标注信息,但是随着大数据时代的到来,标注示例所需的时间成本和金钱成本增加,弱监督学习越来越受到人们广泛关注。偏标记学习是一种弱监督的学习框架,这种学习框架在现实社会中有着广泛的应用,比如:自动标注系统,来自不同背景的人做了不同的标注,但是其中只有一个标记是真实标记;一篇新闻报道出现了多人的名字和一张合照,但是人和名字的匹配信息并不清楚。偏标记学习的目的是从有候选标签集合的样本中学到一个多分类模型。现有的偏标记学习往往针对单个示例消歧,而忽略了利用全局语义信息更好的获取正确标记;并且大多数训练模型都直接采用原始特征信息,而缺少了对于特征的处理。因此,本文提出以下两种偏标记学习算法。为了更好的利用全局语义信息获取真实标记,为了降低冗余特征对模型泛化性能的影响,本文提出了一个基于特征子空间表示和标记全局消歧策略的偏标记学习算法。该算法的创新点有两个,一方面,将子空间表示引入到偏标记学习模型中。特征子空间应该具有三种属性:判别性,一致性,和紧凑性。采用最小二乘损失确保特征子空间更具有判别性,利用图拉普拉斯约束确保特征子空间和原始特征空间的流形结构一致,使用正交约束确保特征子空间是紧凑的没有冗余。另一方面,本模型充分利用了全局语义信息,消除标记候选集中的伪标记。全局语义信息可以解释为两个原则,局部一致性原则,相似的样本有相似的标记;和稀疏性原则,多分类样本的标记空间应该是稀疏的。基于以上原则,本模型引入了标记置信度矩阵,并且为了确保标记置信度矩阵的稀疏性,采用?"范数,为了确保标记置信度矩阵的一致性,引入图拉普拉斯约束。充分的实验表明,本模型与现有的偏标记学习算法相比具有很好的竞争力。由于偏标记学习中伪标记的存在,我们很难直接从候选标记集合中学习分类模型,往往都是先对候选标记集合进行消歧处理,而消歧的本质依据就是一致性,即相似的样本应该有相似的标记分布。因此,偏标记学习的科研工作者们提出了各种探索样本相似性的算法,包括:基于K近邻的偏标记学习算法和基于最小重构损失的偏标记学习算法等。本文提出了基于低秩表示的偏标记学习算法,创新性的使用低秩约束探索样本之间的相似性。具体的,在特征空间,利用低秩约束学习样本的自表示信息,充分挖掘样本之间的相似性。在标记空间,利用样本自表示信息构建约束矩阵,使相似的样本具有相似的标记分布;利用惩罚项约束标记空间,确保标记空间的稀疏性。大量实验表明,该算法有较好的学习效果。