论文部分内容阅读
以卷积神经网络和Transformer为代表的深度神经网络极大地推动了深度学习的发展,但其缺乏可解释性的黑盒性质也限制了相关模型在高可靠性要求等场景的应用。已有的深度学习模型解释方法或仅提供在局部输入空间或局部模型结构上的解释,缺乏对完整模型的解释;或使用模型无关的解释方法在完整输入空间或者模型结构上提供全局解释,缺乏对模型相关性质如与参数、结构相关的分析。本文借助图像风格化任务来探究卷积神经网络与视觉Transformer的图像分类偏好性质与模型参数和结构的关系。图像风格化任务旨在将给定内容图像转换为由示例风格图像指定的外观或视觉风格。近年来,基于深度学习的图像风格化方法大都依赖预训练的卷积神经网络作为骨干网或者监督信息,利用其分类偏好中更强的纹理偏好来表示风格特征。图像风格化结果可反映出所使用模型对内容保持和目标风格渲染的程度,对应了模型分类偏好中的形状偏好与纹理偏好。本文将三种基于卷积神经网络的代表图像风格化方法迁移到视觉Transformer结构上。本文通过控制风格化模型的结构与用于计算图像风格化损失的模型结构的一致性设置实现了基于上述两种结构的同构和异构训练图像风格化模型,在此基础上通过对比不同模型的图像风格化方法作为对相关模型的可解释方法,探究卷积神经网络与视觉Transformer的图像分类偏好与模型结构和参数的关系。本文的主要内容和贡献如下:(1)本文实现了三种基于视觉Transformer结构的图像风格化方法。本文设计了基于视觉Transformer网络的编码器-解码器结构,作为基于视觉Transformer的图像风格迁移模型框架,在此基础上将原有基于卷积神经网络的三种代表性图像风格化方法迁移到Transformer结构,并对其修改以适应视觉Transformer网络的特征。(2)本文通过同构训练图像风格化模型的对比实验探究预训练视觉Trans-former和卷积神经网络计算的感知损失对模型分类偏好的影响,并从图像风格化的角度验证预训练的VGG和视觉Transformer分别拥有强纹理偏好和强形状偏好。通过使用相同结构的编码器计算感知损失并在不同编码器参数设置下训练解码器参数,相对于基于CNN的模型能够实现合理的图像风格化,由于预训练Transformer的分类偏好更偏向于形状而非纹理,基于视觉Transformer的图像风格化模型并不能合理实现目标风格的渲染。(3)本文通过异构训练图像风格化模型的对比实验探究视觉Transformer和卷积神经网络的模型结构和参数对模型分类偏好的影响。使用基于视觉Transformer的感知损失训练的CNN图像风格化模型无法实现合理的图像风格化,而随机初始化的视觉Transformer经过基于CNN的感知损失训练后可以实现正常的目标风格迁移,表明视觉Transformer可以学习到与CNN相似的特征,拥有更强的纹理偏好;预训练视觉Transformer中较强的形状偏好来自于模型参数而不是模型结构。本文所提出的基于异构训练的视觉Transformer风格化模型能够实现与最新方法相接近的风格化效果,在合理渲染目标风格的同时能够实现更优的内容保持。