论文部分内容阅读
信息处理任务的难易程度取决于信息被呈现的方式,这一原则无论对日常生活还是对计算机科学都适用。机器学习方法的性能更是重度依赖于数据表示(或特征表示)根据应用场景的选择。表示学习尝试学习一种数据表示,它抽取有用信息,即寻找从高维形式到潜向量这种低维形式的映射。表示学习是一种提取样本特征的特殊降维,这种降维使得分类器或其它预测模型更为有效。学习有效的表示映射及其逆映射在图像处理和图像理解研究中都是极为重要的问题。本文基于深度卷积神经网络框架和生成对抗网络理论,主要关注和讨论了表示学习领域的一些挑战性问题。本文的创新性成果主要包括如下内容:1.针对表示学习方法中常见的信息丢失和语义不明确等问题,利用数据流形的自然聚类性质,提出了基于生成对抗网络的表示学习方法。学习有效的表示映射及其逆映射是一个极为重要的问题,然而大多数表示学习算法都需要在尽可能多地保留与输入相关的信息和追求良好的性质(如独立性)之间作出权衡。表示学习中较为常见的信息丢失的难题在图像层面体现为经过表示映射和逆映射的重构过程后不可避免的局部模糊。为了解决这一问题,本文在自编码器的结构中创新性地引入了生成对抗网络的结构,构造了一种新型的生成对抗自编码器(generative adversarial auto-encoder,GAAE)。考虑到卷积神经网络在图像表示学习中表现出的优异性质,本文在生成对抗自编码器的模型中大量采用了卷积结构以高效地完成图片样本的表示学习任务。通过样本融合实验和生成分布的连续性实验,验证了模型学习到的表示的连续性,即生成对抗自编码器学习到的映射的像空间是一个接近训练集分布的连续流形。2.针对图像到图像的转换问题中成对样本难以获取的问题,提出了基于特征保持条件生成对抗网络(identity preserving conditional generative adversarial networks,IPcGAN)的图像翻译模型。图像到图像的转换(image-to-imagetranslation)是计算机视觉的一类问题,该问题尝试利用成对的训练集样本来学习从源域(source-domain)到目标域(target-domain)的映射。然而,对于大部分任务而言,收集成对训练样本的代价极大,为了解决这一难题,本文引入了生成对抗网络和分步训练,通过“训练条件生成对抗网络”、“生成数据集”、“训练编码器”的步骤,在缺少成对样本的前提下学习像素空间中从源域Ds到目标域Dt的变换映射G。对抗损失函数(adversarial loss)的引入保证了学习到的映射G满足条件:G(Ds)中的样本构成的分布趋近于目标域Dt的分布。3.针对图像到图像的转换过程中样本身份特征难以保持的问题,提出了两种可选的后置处理过程。为了解决图像到图像的转换过程中样本身份信息丢失的问题,引入了两种可选的后置处理过程:用联合损失函数对网络参数进行微调(fine-tune)或用掩模(masking)技术对图片进行后置处理,两种后置处理都能在尽可能保持样本身份信息的同时修改样本的其他属性。其次,用定性和定量的多组实验来评估算法,用潜空间上的向量插值实验验证了生成分布的连续性;在重构任务上将模型与变分自编码生成对抗网络(variational auto-encoder generative adversarial networks,VAE-GAN)进行了比较,重构结果明显优于后者;用开源的人脸识别软件Openface[1]检验了修改属性后人脸身份信息的完整性;用 Inception Score(IS)和 Frechet Inception Distance(FID)[3]检测了生成样本的质量并与其它主流生成模型进行了比较,验证了模型在人脸属性修改任务中可以生成质量良好的人脸图片。