论文部分内容阅读
在日常生活中,信息传递的方式有很多种,包括文字、图像、音频、视频等。在很多的场景中,人们更喜欢图文并茂的方式来传递信息,但是文本信息比较容易获得,而其对应的图像信息较难获得,为了解决这样的问题,本文进行了基于文本语义的图像生成研究。在该项研究中,变分自编码器扮演了很重要的角色,其核心是通过对文本信息编码再解码的方式来生成图像,其衡量图像质量采用的是均方误差的方式,但该方法不能保证生成图像的质量。目前该项研究最热门的方法就是基于GAN及其改的方法,GAN基于博弈的思想设计了生成器和判别器来生成高质量的图像。GAN在英文、简单场景下的图像生成中取得了一定的成果,但是仍然存在一些问题,例如基于中文文本的研究较少、生成图像多样性不足、稳定性差、文本一致性差等。另外,传统的卷积GAN中,卷积操作局域感知特点带来的长距离像素关联关系无法获取的问题也是GAN模型的一个局限性。针对上述问题,本文做了如下研究:1)本文构建了一份情感信息丰富的中文诗词数据集。为了使文本信息在图像生成中得到充分利用,本文对爬虫得到的数据集进行了题材分类和情感分类。在题材分类任务中,选取了TextCNN模型,分类对象是诗词单句,根据诗句文本较短、特征难提取的特点,本文将文本多通道特征和dynamic k-max pooling的池化方式引入到TextCNN模型结构中。在上述分类模型中,诗词的题材分类F1值达0.965。在情感分类任务中,分类对象是诗词序列,为了获得诗词序列上下文,该任务选用Bi-LSTM分类模型,为了捕捉文本序列中长距离特征依赖的关系,本文在Bi-LSTM模型的基础上引入了Self-Attention机制。引入Self-Attention机制后的模型在诗词情感分类任务中F1值达0.963。2)本文提出了三种对cGAN改进的模型用于文本的图像生成。其一,提出了基于伪孪生神经网络的cGAN模型(PSN-cGAN);其二,提出了基于Self-Attention机制的cGAN模型(SA-cGAN);其三,对上述模型进行融合提出了SA-PSN-cGAN模型。另外,本文引入了情感特征形成L-cGAN模型,该模型比无情感特征的Inception Score提升0.25。本文对PSN-cGAN、SA-cGAN基于情感特征进行实验,PSN-cGAN模型增强了生成图像与文本的一致性,改进后的模型Inception Score提升了0.39;SA-cGAN模型中Self-Attention机制解决了卷积cGAN中卷积操作局域感知的特点带来的远距离像素点关联性差的问题,改进的模型Inception Score提升了0.56。为了进一步提升图像生成模型的质量,本文提出了SA-PSN-cGAN模型在Inception Score指标和类图灵测试中达到了最高,分别为3.04和62.8%。