论文部分内容阅读
自动人脸识别是一种代表性的生物特征识别技术,具有可以远距离、非接触式识别的优势,在实名认证、隐私控制、人机交互、视频黑名单监控等诸多领域有着广泛的应用前景。与DNA、指纹、掌纹、虹膜等生物特征不同,人脸数据的采集不需要依赖特定设备且可由用户自主产生,例如互联网上的图像、视频中包含有海量的人脸数据。近年来,得益于来自互联网等多个渠道的人脸大数据和深度学习技术的发展,基于卷积神经网络的数据驱动的深度人脸表示学习已经成为真实条件下人脸识别最具代表性的方法之一。深度人脸表示学习方法依赖于大而标签精确的人脸数据,然而通过互联网采集的人脸数据通常标签带有噪声甚至缺失。为了保证深度人脸表示学习的质量,必须对互联网数据进行费时费力的人工标注。如何避免深度神经网络错误的拟合到标签噪声数据分布上导致的模型性能退化,以及如何有效利用标签缺失的数据,是深度人脸表示学习面临的极富挑战性的问题。本文针对标签噪声和缺失场景下的人脸识别问题展开了深入的分析与研究,分别从更高效地进行带标签噪声的人脸图像集提纯的角度和直接利用标签噪声和缺失数据进行深度人脸表示学习的角度提出了多项创新性方法。本文主要研究工作包括: 1)针对互联网数据标签噪声高的问题,提出了一种耦合判别特征空间学习的标签噪声人脸图像集提纯方法。该方法设计了一种基于自学习机制的迭代优化策略。首先在多个带标签噪声的图像集上进行判别特征空间学习,并在学习到的判别特征空间基础上进行单类学习。然后利用单类学习的结果对数据进行提纯,并进一步在提纯后的图像集上再进行判别特征空间学习。通过迭代地进行多类判别学习和单类图像集提纯,充分挖掘了多个标签噪声图像集的判别信息。实验结果表明,该方法取得了优于state-of-the-art单类学习方法的性能。基于该方法,本文设计了一个交互式的标签噪声人脸图像集标注工具,平均提高了2倍以上的人脸图像集人工标注效率。基于该工具,本文构建了大规模华裔名人人脸数据集,包含1,001个华裔名人的270,706张真实条件下的人脸图像,这是目前已知的最大规模华裔名人人脸数据集。 2)针对标签噪声场景下的人脸识别问题,提出了一种自纠错卷积神经网络学习方法,能够同时进行标签纠错和深度模型优化。该方法基于深度模型随着训练会越来越精确的估计样本标签这一假设,设计了一种基于贝努力分布的置信度策略在样本噪声标签和深度模型最大激活标签之间进行渐进选择。随着训练的进行,自纠错卷积神经网络更多的依赖于深度模型的最大激活标签也就是估计出的样本标签,从而可以随着训练的进行同步进行噪声标签纠错和深度模型优化。该方法还提出了一种快速归一化操作,对输出层节点进行归一,避免了大比例标签噪声情况下深度模型输出节点的“标签马太效应”。在标签噪声场景下,该方法取得了当前最好的性能。在含有70%比例标签噪声的真实条件人脸数据集CCFD上,该方法依旧能够鲁棒的进行深度人脸模型的训练。 3)针对集合内标签缺失场景下也即半监督场景下的人脸识别问题,将自纠错卷积神经网络方法扩展到半监督学习场景下。通过将深度模型对标签缺失样本的预测标签视为带噪声的标签,自纠错卷积神经网络可以在同一框架下端到端的处理半监督人脸数据学习问题。在半监督场景下,该方法取得了当前最好的性能。在只有20%样本有标签的情况下,利用自纠错卷积神经网络方法能够取得与卷积神经网络方法使用全部有标签样本可比的性能。 4)针对集合外标签缺失场景下的开集人脸识别问题,提出了一种开集人脸识别卷积神经网络学习方法。该方法将集合外标签缺失数据作为等权重的已知类别样本,在训练阶段最大化了集合外标签缺失样本与已知类别训练集样本的无关性,从而能有效收缩集合外未知样本与已知类别样本的相似度。在开集人脸识别场景中,该方法可以利用已知的集合外标签缺失人脸数据,显著提高开集场景下人脸识别算法对集合外未知样本的拒识能力。 5)为满足工业界和学术界对真实条件下高精度人脸识别开源系统的需求,提出了一种面向真实条件人脸识别任务的开源人脸识别方法VIPLFaceNet。从网络结构简化的角度,设计了VIPLFaceNet卷积神经网络结构,包含7个卷积层和3个全连接层。与广泛使用的AlexNet模型相比,VIPLFaceNet只需要60%的计算量。在代表性的真实条件人脸数据集LFW上,VIPLFaceNet取得了单模型98.60%的平均精度,相比AlexNet降低了40%的平均错误率。VIPLFaceNet基于标准C++开发,采用BSD协议开放全部源代码,为学术界和工业界提供了一个高精度基于深度学习的人脸识别算法测试基准。 综上所述,本文从标签噪声数据提纯和直接进行深度模型学习的角度对标签噪声和缺失条件下的人脸识别问题开展了广泛和深入的研究。大量实验结果表明,本文方法能够高效利用标签噪声和缺失的人脸大数据,提升真实条件下人脸识别系统的精度,同时本文方法也可以推广应用到一般性的标签噪声和缺失场景下视觉数据学习问题。