论文部分内容阅读
随着深度学习的日益发展,深度神经网络在计算机视觉、文本处理、语音识别等领域都占据着愈发重要的位置。然而近年的研究表明,没有任何特定防御措施的深度神经网络极其容易被攻破。例如在图像分类任务中,在清晰图片上施加人类肉眼难以分辨的细微扰动,就可以使深度神经网络以极高的置信度将图片内容判断为错误的类别,造成极大的危害。现有的深度神经网络攻击主要分为两种:一种是白盒模型攻击,其假定的条件为被攻击的神经网络模型对攻击者是已知的,即模型的输出结果以及模型的结构、参数皆可被攻击者得到,攻击者可以利用模型参数快速生成高成功率的对抗样本;另一种是黑盒模型攻击,其假定攻击者仅可以得到模型的输出结果,而无法得到模型的结构与参数,该攻击环境更贴合实际,因而本文也更关注该方面的研究,黑盒模型攻击相较白盒模型攻击,攻击成功率低且速度较慢,但危害性却远远胜过白盒模型攻击。本文提出的多模型高效查询攻击(Multi-Model Efficient Query Attack)方法针对黑盒模型攻击所需查询次数过多、速度过慢的问题,在攻击查询过程中引入了多种白盒模型作为指导模型,利用白盒模型与黑盒模型的关联性给出求解黑盒攻击问题的指导性方向,从而大幅度减少查询次数,同时引入了自然进化策略(Natural Evolution Strategy)辅助攻击方向的细节优化,将高斯分布的随机方向与多个白盒模型的预测梯度方向结合,共同计算实际梯度方向。此外,本文提出了一种新的指定目标黑盒攻击方法Target MEQA-NES,针对现有指定目标迁移攻击效果差、梯度估计查询效率低的问题进行了改进。本文主要贡献点如下:1.本文针对现今主流黑盒攻击算法查询次数过多的问题,提出了多模型高效查询攻击算法(MEQA),利用了多种白盒模型的指导性优化方向,快速生成高攻击成功率的对抗样本,将查询次数由千级单位下降到百级单位,提升了黑盒攻击算法的效率。2.针对多模型高效查询攻击算法中存在的攻击效果与黑白盒模型相似度高度相关的问题,为解决黑白盒模型相似度较低导致的攻击成功率较低的问题,本文将自然进化策略与MEQA算法结合,提出了MEQA-NES算法,改进MEQA算法的同时降低了传统自然进化策略所需的采样数量;同时引入了缩小自然进化策略采样搜索空间的编码器(Encoder)和解码生成器(Generator)结构,从而在保留MEQA攻击效率优势的同时,改善了最恶劣情况下算法的攻击成功率。3.在指定目标攻击领域,本文扩充了指定目标攻击的损失函数,将非指定目标攻击的损失函数也引入其中,命名为混合损失(CombineLoss),从而使得对抗样本靠近指定目标特征的同时,尽快远离原特征。此举是为了将非指定目标攻击迁移性高的优势尽可能运用到指定目标攻击领域。基于混合损失,本文提出了Target MEQA-NES算法,并修改了编码器与解码生成器的结构以应对指定目标攻击任务,解决了指定目标攻击领域中迁移攻击成功率过低以及梯度估计攻击速度过慢的问题,将迁移攻击与梯度估计攻击进行结合,最终运用于人脸攻击任务中。4.本文针对图像分类与人脸识别两部分任务,提出了基于MEQA的各类算法,通过丰富的实验发现了当今不同架构的深度模型之间存在相似性,在极有限的查询次数下,可以利用白盒模型的梯度方向使黑盒攻击效果也达到90%以上的成功率。MEQA类攻击方法对于未来黑盒攻击的防御设计具有参考意义。