论文部分内容阅读
计算机技术迅速发展的今天,机器学习在许多领域已经取得了非常优秀的性能表现。新的机器学习算法层出不穷,虽然新的算法架构在相同的条件下性能有所提升,但是机器学习的成功更多地还是依赖大量的标注数据。可是在许多专业的领域,数据标注不仅枯燥乏味、消耗时间,而且需要大量具有专业领域知识的人力资源,这通常不是一项容易的任务。为了降低人工标注数据的成本,本文提出了一种持续学习框架CLBSS。CLBSS基于主动学习方法,主动学习的主要目的就是通过主动学习样本选择算法从大量未标注数据集中选取最有价值的部分样本进行人工标注,减少人工标注样本的数量。CLBSS应用主动学习算法,持续地从未标注数据中选取最佳子集进行人工标注,进而完成模型更新。CLBSS主要由基分类器,主动学习样本选择算法和已标注样本采样算法三个模块构成。基分类器是CLBSS的主体,主动学习算法和已标注样本采样算法都依赖于基分类器,依据不同的分类任务通常采用不同的基分类器。本文的任务场景设定为音频分类,音频分类通常首先要把原始音频特征转化为频谱图,然后对频谱图进行分类识别,所以专为图像分类设计的卷积神经网络称为基分类器的首选。主动学习样本选择算法是主动学习过程的核心。常见的主动学习样本选择策略主要基于“最具识别力”或“最具代表性”准则。“最具识别力”准则侧重于考虑当前模型的特点,选取当前模型分类最“模糊”的样本进行人工标注。“最具代表性”准则则更多地考虑数据本身的特点,尽可能的发掘更多样化的数据。CLBSS采用了新的融合“最具识别力”和“最具代表性”准则的主动学习样本选择策略,汲取了两种策略的优点,使得选取的样本更加合理,更有利于基分类器性能的提升。已标注样本采样算法对分类器学习过的样本进行下采样,在学习性能和效率之间取得了很好的平衡。随着持续学习轮次的不断增加,标注数据量也会不断增加,对标注数据进行下采样可以缓解数据膨胀问题。但是,如果完全不使用已学习过的标注数据,而只使用当前批次新标注的数据,则会造成灾难性遗忘问题,即对分类器学习过的数据分类性能急剧下降。所以使用部分已学习过的数据也有助于缓解灾难性遗忘问题。实验结果表明,基于融合策略的主动学习算法能够使得分类器获得更加鲁棒和快速的性能提升。与其他持续学习框架相比,CLBSS通过对已标注数据的下采样,可以避免不必要的计算代价,并且减少了数据的存储需求。