论文部分内容阅读
在用户推荐、文本分类、图像分类等实际应用场景中,往往只存在少量的某类别的已标记样本和大量未标记样本,并希望根据某类别的已标记样本,从未标记样本中识别出与已标记样本同类别的样本。显然,由于未标记样本中包含待识别的样本,且待识别的样本具有已标记样本的特征,因而直接将未标记样本作为负样本不太合适。对此,Denis等提出了 PU学习理论,并产生了 PU学习算法。国内外有关PU学习的研究主要集中在以下三个方面:静态确定数据集上的PU学习、静态不确定数据集上的PU学习,以及数据流上的PU学习。本文针对静态确定数据集上的PU学习进行研究。已有的静态确定数据集上的PU学习算法可被分为三类:第一类是仅在已标记正样本上进行学习;第二类是通过识别未标记样本中的可靠负样本,再与已标记正样本结合,使用基于正、负样本的机器学习算法进行学习;第三类是将未标记样本作为负样本,将未标记样本中包含的未被识别出的正样本作为负样本中的噪声进行处理,从而直接在正、未标记样本上进行学习。此外,由于基于规则的分类算法的分类器的可解释性较好,且能处理连续型数值特征与标量型特征组成的混合特征集,因而基于规则的分类算法受到广泛应用。其中,基于规则的分类算法主要包括决策树类算法和关联分类算法。然而,在已收集到的文献中,基于规则的PU学习算法多为决策树类算法,而少有基于关联分类算法的方法。因此,文本基于常用的关联分类算法CBA,提出了一种新的PU学习方法。本文所提PU学习方法共分以下四个步骤:分类关联规则产生、样本类别分布不平衡时的分类关联规则置信度调整、分类关联规则相对置信度计算,以及基于分类关联规则相对置信度的分类。其中,受未标记样本中包含的未被识别出的正样本的影响,计算出的分类关联规则的置信度与真实值有差别。具体而言,正类别的分类关联规则的置信度较真实值偏小,而未标记类别的分类关联规则的置信度较真实值偏大。使用分类关联规则进行分类时,提高分类效果的关键在于找到具有类别区分力的分类关联规则。对此,本文提出使用分类关联规则相对置信度来衡量分类关联规则分类结果的可信度。最后,在10个二元分类的UCI数据集上,对本文所提方法与CBA算法和POSC4.5算法在不同PU学习场景下的分类效果进行比较。其中,采用分层随机抽样,按50%:50%的方式将各数据集划分为训练集和测试集,然后再分别按0%、30%、60%、90%的比例,将训练集中的已标记正样本转换为未标记样本中包含的未被识别出的正样本,与训练集中的原负样本一起构成未标记样本集,以便模拟不同的PU学习场景。此外,使用AUC作为实验评价指标。实验发现,随着训练集中可供学习的正样本的数量不断减少,而未标记样本中包含的未被识别出的正样本的数量越来越多,本文所提方法在PU学习场景中的分类效果优于CBA算法和POSC4.5算法。不过,在上述实验中同样发现,CBA算法和本文所提PU学习方法对样本进行正确分类的能力均大致呈下降趋势,POSC4.5算法的分类效果较本文所提方法稳定。