论文部分内容阅读
在深度学习方法快速发展以及海量视觉数据可利用的背景下,计算机视觉领域近年来发展出多种视觉理解方法,旨在辅助机器理解和分析视频及图像的语义信息。图像翻译作为视觉理解的一种常见方法,其关键在于学习到一个可在图像域之间进行变换的映射关系,利用神经网络学习源域内容,然后将其转换到目标图像域空间。人类生产生活中的很多问题都可以转化为图像翻译的子任务,例如在自动驾驶领域,将车载摄像头拍摄的街景图转换为目标分割图;在遥感监测中,将实景地图转换为简洁地图模式;在娱乐休闲方面,人们希望实现对人脸卡通化、老照片修复等有趣的目标。
随着生成对抗网络的诞生,图像翻译任务发展出了更多网络规模小、效果好的方法,基于该网络的翻译工作成为研究主流。但是,收集大批量的成对训练数据需要耗费巨大工作量。因此,现有的图像翻译工作大都针对非成对样本。循环生成对抗网络(Cycle-Consistent Generative Adversarial Network,CycleGAN)利用循环一致性的思想实现两个图像域间的有效转换,成为无监督图像翻译领域的里程碑,也成为了无监督翻译工作常用的基础架构,但其本身存在训练不稳定、图像特征可解释性差的缺点。
基于以上背景及问题,本论文基于CycleGAN,具体完成了以下工作:
1.提出了一种复用特征编码器的图像翻译方法。将CycleGAN生成网络中的编码功能同时应用于判别器中,可显著减小网络参数量。在训练中,生成器仅对特征转换模块和解码器进行更新,编码器由判别器进行优化,判别器同时对真假图像进行判别。同时,提出了一种特征感知损失函数,可自适应的利用编码器提取特征级差异,进而约束网络训练。该方法在三个公开数据集上均取得了较好效果。
2.提出了一种采用自注意力模块的图像翻译方法。将自注意力机制应用于生成网络中,通过增大特征图的感知范围,加强周围像素点对中心点的表征能力;为了解决生成图的棋盘效应,将解码器中的转置卷积替换为上采样与卷积的叠加;最后,为了解决网络训练中收敛缓慢且不稳定的问题,在生成网络和判别网络中使用谱归一化方法。实验证明该方法可以实现更细致的图像特征转换,定量和定性实验均验证了本章模型的有效性。
3.提出了一种可感知前景目标的图像翻译方法。针对整图翻译中背景容易跟随前景同时翻译的问题,本方法单独学习一个注意力网络,对图像前景特征进行提取,学习到的灰度注意力图可帮助生成器仅对目标前景进行翻译。该方法可实现更为精准的前景生成。
随着生成对抗网络的诞生,图像翻译任务发展出了更多网络规模小、效果好的方法,基于该网络的翻译工作成为研究主流。但是,收集大批量的成对训练数据需要耗费巨大工作量。因此,现有的图像翻译工作大都针对非成对样本。循环生成对抗网络(Cycle-Consistent Generative Adversarial Network,CycleGAN)利用循环一致性的思想实现两个图像域间的有效转换,成为无监督图像翻译领域的里程碑,也成为了无监督翻译工作常用的基础架构,但其本身存在训练不稳定、图像特征可解释性差的缺点。
基于以上背景及问题,本论文基于CycleGAN,具体完成了以下工作:
1.提出了一种复用特征编码器的图像翻译方法。将CycleGAN生成网络中的编码功能同时应用于判别器中,可显著减小网络参数量。在训练中,生成器仅对特征转换模块和解码器进行更新,编码器由判别器进行优化,判别器同时对真假图像进行判别。同时,提出了一种特征感知损失函数,可自适应的利用编码器提取特征级差异,进而约束网络训练。该方法在三个公开数据集上均取得了较好效果。
2.提出了一种采用自注意力模块的图像翻译方法。将自注意力机制应用于生成网络中,通过增大特征图的感知范围,加强周围像素点对中心点的表征能力;为了解决生成图的棋盘效应,将解码器中的转置卷积替换为上采样与卷积的叠加;最后,为了解决网络训练中收敛缓慢且不稳定的问题,在生成网络和判别网络中使用谱归一化方法。实验证明该方法可以实现更细致的图像特征转换,定量和定性实验均验证了本章模型的有效性。
3.提出了一种可感知前景目标的图像翻译方法。针对整图翻译中背景容易跟随前景同时翻译的问题,本方法单独学习一个注意力网络,对图像前景特征进行提取,学习到的灰度注意力图可帮助生成器仅对目标前景进行翻译。该方法可实现更为精准的前景生成。