基于稀疏编码的主动学习方法在图像分类中的研究

论文部分内容阅读

在模式识别领域，图像分类是一项很重要的工作。很多图像分类系统需要用户手动标注大量的图像样本点，然后根据这些带标签的样本点可以训练出一个高效分类模型。带标签的图像数据难以获得，而无标签的图像则很容易获得。为了解决数据标签问题，主动学习已经成为机器学习和模式识别里的一个热点话题。目前，研究人员已经做了很多主动学习的研究，比如SVM active和直推式实验设计（TED）算法，然而这些方法都没有把数据样本点的几何结构考虑进去。基于TED算法蔡登等人提出了一种新的主动学习算法，称为MAED算法，这种算法在流形适应性核空间中进行，充分考虑了数据间的内在流形结构。在本文中，通过将数据的稀疏编码引入到最优实验设计中，生成了一种新颖的主动学习方法：稀疏自适应性实验设计（SAED）。稀疏自适应性实验设计算法首先根据数据全集构造l1-范数图，然后通过l1-最小化问题确定图的权重，最后将新的权重图运用到实验设计中，形成新的主动学习算法。与以往图构造方法相比，本文中l1-范数图的应用有以下优点：（1）l1-范数图不需要邻居的尺寸作为参数，它自适应地将每个样本和剩余的样本连接起来。（2）l1-范数图的稀疏编码在挑选重要样本的时候具有鲜明的判别性。

其他学术论文