标签噪声和缺失场景下的真实条件人脸识别研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lbj120225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动人脸识别是一种代表性的生物特征识别技术,具有可以远距离、非接触式识别的优势,在实名认证、隐私控制、人机交互、视频黑名单监控等诸多领域有着广泛的应用前景。与DNA、指纹、掌纹、虹膜等生物特征不同,人脸数据的采集不需要依赖特定设备且可由用户自主产生,例如互联网上的图像、视频中包含有海量的人脸数据。近年来,得益于来自互联网等多个渠道的人脸大数据和深度学习技术的发展,基于卷积神经网络的数据驱动的深度人脸表示学习已经成为真实条件下人脸识别最具代表性的方法之一。深度人脸表示学习方法依赖于大而标签精确的人脸数据,然而通过互联网采集的人脸数据通常标签带有噪声甚至缺失。为了保证深度人脸表示学习的质量,必须对互联网数据进行费时费力的人工标注。如何避免深度神经网络错误的拟合到标签噪声数据分布上导致的模型性能退化,以及如何有效利用标签缺失的数据,是深度人脸表示学习面临的极富挑战性的问题。本文针对标签噪声和缺失场景下的人脸识别问题展开了深入的分析与研究,分别从更高效地进行带标签噪声的人脸图像集提纯的角度和直接利用标签噪声和缺失数据进行深度人脸表示学习的角度提出了多项创新性方法。本文主要研究工作包括:  1)针对互联网数据标签噪声高的问题,提出了一种耦合判别特征空间学习的标签噪声人脸图像集提纯方法。该方法设计了一种基于自学习机制的迭代优化策略。首先在多个带标签噪声的图像集上进行判别特征空间学习,并在学习到的判别特征空间基础上进行单类学习。然后利用单类学习的结果对数据进行提纯,并进一步在提纯后的图像集上再进行判别特征空间学习。通过迭代地进行多类判别学习和单类图像集提纯,充分挖掘了多个标签噪声图像集的判别信息。实验结果表明,该方法取得了优于state-of-the-art单类学习方法的性能。基于该方法,本文设计了一个交互式的标签噪声人脸图像集标注工具,平均提高了2倍以上的人脸图像集人工标注效率。基于该工具,本文构建了大规模华裔名人人脸数据集,包含1,001个华裔名人的270,706张真实条件下的人脸图像,这是目前已知的最大规模华裔名人人脸数据集。  2)针对标签噪声场景下的人脸识别问题,提出了一种自纠错卷积神经网络学习方法,能够同时进行标签纠错和深度模型优化。该方法基于深度模型随着训练会越来越精确的估计样本标签这一假设,设计了一种基于贝努力分布的置信度策略在样本噪声标签和深度模型最大激活标签之间进行渐进选择。随着训练的进行,自纠错卷积神经网络更多的依赖于深度模型的最大激活标签也就是估计出的样本标签,从而可以随着训练的进行同步进行噪声标签纠错和深度模型优化。该方法还提出了一种快速归一化操作,对输出层节点进行归一,避免了大比例标签噪声情况下深度模型输出节点的“标签马太效应”。在标签噪声场景下,该方法取得了当前最好的性能。在含有70%比例标签噪声的真实条件人脸数据集CCFD上,该方法依旧能够鲁棒的进行深度人脸模型的训练。  3)针对集合内标签缺失场景下也即半监督场景下的人脸识别问题,将自纠错卷积神经网络方法扩展到半监督学习场景下。通过将深度模型对标签缺失样本的预测标签视为带噪声的标签,自纠错卷积神经网络可以在同一框架下端到端的处理半监督人脸数据学习问题。在半监督场景下,该方法取得了当前最好的性能。在只有20%样本有标签的情况下,利用自纠错卷积神经网络方法能够取得与卷积神经网络方法使用全部有标签样本可比的性能。  4)针对集合外标签缺失场景下的开集人脸识别问题,提出了一种开集人脸识别卷积神经网络学习方法。该方法将集合外标签缺失数据作为等权重的已知类别样本,在训练阶段最大化了集合外标签缺失样本与已知类别训练集样本的无关性,从而能有效收缩集合外未知样本与已知类别样本的相似度。在开集人脸识别场景中,该方法可以利用已知的集合外标签缺失人脸数据,显著提高开集场景下人脸识别算法对集合外未知样本的拒识能力。  5)为满足工业界和学术界对真实条件下高精度人脸识别开源系统的需求,提出了一种面向真实条件人脸识别任务的开源人脸识别方法VIPLFaceNet。从网络结构简化的角度,设计了VIPLFaceNet卷积神经网络结构,包含7个卷积层和3个全连接层。与广泛使用的AlexNet模型相比,VIPLFaceNet只需要60%的计算量。在代表性的真实条件人脸数据集LFW上,VIPLFaceNet取得了单模型98.60%的平均精度,相比AlexNet降低了40%的平均错误率。VIPLFaceNet基于标准C++开发,采用BSD协议开放全部源代码,为学术界和工业界提供了一个高精度基于深度学习的人脸识别算法测试基准。  综上所述,本文从标签噪声数据提纯和直接进行深度模型学习的角度对标签噪声和缺失条件下的人脸识别问题开展了广泛和深入的研究。大量实验结果表明,本文方法能够高效利用标签噪声和缺失的人脸大数据,提升真实条件下人脸识别系统的精度,同时本文方法也可以推广应用到一般性的标签噪声和缺失场景下视觉数据学习问题。
其他文献
随着众多技术的和人为的因素使得软件系统的开发环境日趋复杂化而难以管理,人们逐渐注意到了CASE技术在软件系统开发工程中的重要作用,而作为CASE技术的一项重要内容,软件配置的
随着七号信令系统应用规模的不断扩大,七号信令集中监测系统日益成为信令网维护的重要手段。在七号信令集中监测系统中,呼叫跟踪是其最重要的功能之一。呼叫跟踪的主要目的是为
当前,随着“科技强警”战略的实施和“金盾工程”的正式启动,计算机应用技术在各级公安机关迅速普及推广,警务督察工作的任务是对公安机关及其民警履行职责、行使职权和遵守纪律
该文的研究主要针对深圳市海博科技有限公司自主研制开发的新一代聚焦式放射治疗设备——超伽治疗系统(SGS:Super Gamma System).研究的目标是在现有硬件和软件的基础上,探讨
该文介绍了数据挖掘、半结构化数据、XML的相关概念和研究现状.给出了一种基于XML研究一般半结构化数据的方法.以标记有序树为半结构化数据的数据模型,从基于最右扩展枚举技
随着当前互联网技术的不断发展,网络结构的日益复杂化和异构化,使得原有的网络管理体系暴露出严重的不足,无法适应新的发展潮流。而中间件和分布式对象技术作为一个新兴的研究方
No.7信令网是电信网的神经中枢,是确保电信运营网络正常工作的支撑网络。由于No.7信令网的重要地位,对No.7信令网的高效、完整的监测一直是电信维护部门开发的热点课题之一。对
随着互联网及VoIP相关技术的发展,通过国际互联网络来传输语音数据包变得越来越具有可实现性。VoIP以其绝对的价格优势和业务扩展的灵活性,正对传统的公共电话网业务造成巨大
进入二十一世纪后,生命科学获得了飞速的发展。而成像技术的迅猛发展带来了生物图像分析需求的不断提高。本论文主要围绕生物图像的大数据分析平台以及相关算法展开研究。整个
该文将面向对象思想和方法引入有限元,面向对象的有限元程序与传统方法编制的有限元程序相比,程序更加结构化、更易于维护和扩充,程序代码的可重用成分更大,易与其它软件集成