基于文本语义的图像生成算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:xiao959907530
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在日常生活中,信息传递的方式有很多种,包括文字、图像、音频、视频等。在很多的场景中,人们更喜欢图文并茂的方式来传递信息,但是文本信息比较容易获得,而其对应的图像信息较难获得,为了解决这样的问题,本文进行了基于文本语义的图像生成研究。在该项研究中,变分自编码器扮演了很重要的角色,其核心是通过对文本信息编码再解码的方式来生成图像,其衡量图像质量采用的是均方误差的方式,但该方法不能保证生成图像的质量。目前该项研究最热门的方法就是基于GAN及其改的方法,GAN基于博弈的思想设计了生成器和判别器来生成高质量的图像。GAN在英文、简单场景下的图像生成中取得了一定的成果,但是仍然存在一些问题,例如基于中文文本的研究较少、生成图像多样性不足、稳定性差、文本一致性差等。另外,传统的卷积GAN中,卷积操作局域感知特点带来的长距离像素关联关系无法获取的问题也是GAN模型的一个局限性。针对上述问题,本文做了如下研究:1)本文构建了一份情感信息丰富的中文诗词数据集。为了使文本信息在图像生成中得到充分利用,本文对爬虫得到的数据集进行了题材分类和情感分类。在题材分类任务中,选取了TextCNN模型,分类对象是诗词单句,根据诗句文本较短、特征难提取的特点,本文将文本多通道特征和dynamic k-max pooling的池化方式引入到TextCNN模型结构中。在上述分类模型中,诗词的题材分类F1值达0.965。在情感分类任务中,分类对象是诗词序列,为了获得诗词序列上下文,该任务选用Bi-LSTM分类模型,为了捕捉文本序列中长距离特征依赖的关系,本文在Bi-LSTM模型的基础上引入了Self-Attention机制。引入Self-Attention机制后的模型在诗词情感分类任务中F1值达0.963。2)本文提出了三种对cGAN改进的模型用于文本的图像生成。其一,提出了基于伪孪生神经网络的cGAN模型(PSN-cGAN);其二,提出了基于Self-Attention机制的cGAN模型(SA-cGAN);其三,对上述模型进行融合提出了SA-PSN-cGAN模型。另外,本文引入了情感特征形成L-cGAN模型,该模型比无情感特征的Inception Score提升0.25。本文对PSN-cGAN、SA-cGAN基于情感特征进行实验,PSN-cGAN模型增强了生成图像与文本的一致性,改进后的模型Inception Score提升了0.39;SA-cGAN模型中Self-Attention机制解决了卷积cGAN中卷积操作局域感知的特点带来的远距离像素点关联性差的问题,改进的模型Inception Score提升了0.56。为了进一步提升图像生成模型的质量,本文提出了SA-PSN-cGAN模型在Inception Score指标和类图灵测试中达到了最高,分别为3.04和62.8%。
其他文献
随着新型城镇化发展,建成环境遭到严重破坏和生态环境受到严峻挑战对公共健康造成的压力,急需反思城市设计与公共健康的内在关系问题。本文首先回顾城市设计与公共健康的历史
"2011捷安特上海自行车嘉年华"于2011年10月23日在上海天马赛车场隆重举行。活动得到了上海及周边地区自行车爱好者的热情响应和强烈支持,参赛选手及自行车爱好者约500人参与到
改革开放三十多年来,土地资源开发利用有力地支持了上海经济社会发展,但也积累了一些矛盾.例如:在用地规模上,建设用地总量逼近规划“天花板”,后备土地资源潜力有限;在用地结
<正>一、课题的提出:(一)研究背景:1、根据2012年教育部新颁高校本科专业目录,工商管理专业为国家控制布点专业,其培养目标是在企业或其他机构中从事管理工作的应用型和复合
会议
到新西兰观光,如果在奥克兰周边或农村走上一圈,就会被这里家家户户的花园式民居所吸引,风貌各异的建筑让人叹为观止。奥克兰民居大多是欧式风格的一至二层小洋房,坡屋顶的木
德国UVEX日前向市场隆重推出“UVISION YUNIOR”和“UVISION KID”二款少年儿童专用的自行车头盔新品。这二款设计极其新颖、专供少年儿童使用的头盔,如同成年人享用的头盔一
微卫星DNA,又称短串联重复序列(STR),是一类具有高度多态性的DNA分子标记,被广泛应用于遗传学、法医学等领域的研究,如基因物理图谱的绘制,动、植物遗传育种的指导及亲权鉴定
气候变暖,环境恶化,人类的生存已面临着严峻的挑战。地球已经向人类提出了一个严肃的问题:要财富还是要生存?联合国哥本哈根气候大会虽已结束。但全球节能减排、拯救地球的责任不
古希腊人的艺术作品是古希腊奇迹中最让人惊叹的内容之一,而陶瓶作为古希腊艺术作品中重要的艺术表现形式之一,其丰富的创作内容、独特的表现风格、精湛的制作技艺,为研究古希腊
密文域信息隐藏是密码学领域的一个重要研究领域,在数字签名,版权保护,篡改检测,叛徒追踪等方面具有非常广泛的应用。加密是一种有效保护宿主图像内容的技术,而信息隐藏可以在宿主图像上嵌入额外数据以实现信息传递的目的。基于两者优势,在密文域中嵌入额外的数据能够在保护图像隐私的前提下实现秘密数据的传递。图像本身具有大容量、高冗余、强相关等固有特性,而现有的加密技术旨在破坏这些固有特性以实现隐私保护的目的,例