基于循环生成式对抗网络与文本信息的图像翻译研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:roamer_wsj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像翻译是一类计算机视觉问题,其目标是使用一组图像来学习输入与输出之间的映射,将一张图像转换为不同目标的图像,在风格迁移、超分辨率增强、图像补全等领域得到了广泛的应用。近几年,人们开发了功能强大的递归神经网络结构来获取文本特征,将文本特征与深层次的视觉特征融合。与此同时,深度卷积生成对抗网络在生成特定类别的高质量图像的成果已经非常显著。目前,图像翻译的研究从一对一的转换逐渐转化为一对多的转换,但每一个网络或分支仅仅适配于一个翻译目标,后期通过不同功能模块的排列组合完成对最终目标的翻译。这使得特征组合出来的目标有限,在遇到新的子目标时需要重新扩容网络进行训练,效率大大降低。另外,随着图像翻译对于细节要求的愈加具体,翻译目标变得越来越精细,且单独目标的翻译频率越来越低。本文提出了基于对抗式生成网络与文本信息的图像翻译课题,利用自然语言提供在某类问题上的翻译目标,使得图像翻译的网络真正转换到一对多的问题。自然语言提供了一种灵活而紧凑的方式来表达视觉特征,是不同特征的组合。每种组合还有不同的表达方式,大大丰富了翻译的目标,并提供了更多的细节。因此这种方式将会更加实用,可以为电影和游戏场景的制作提供了丰富的素材,也能为自动驾驶技术迅速和便捷的生成不同路况下的丰富训练数据,以不断提高算法对不同路况的判断能力。本课题以生成式对抗网络为核心,在输入中增加文本特征作为训练的约束,最终生成翻译图像。在生成器中,text embedding与输入图像的特征融合后一起经过翻译转换后恢复出符合要求的结果;判别器则负责鉴别输入图像的真假,得出标量分数。在GANs的基础上采用循环框架,约束了文本中没有提到的背景和姿态等部分。与特定目标的翻译网络相比,本课题需要将更多的信息存储在网络中,为了提取更加抽象、更加具有语义信息的特征,采用残差结构加深了网络,避免梯度弥散和梯度爆炸。
其他文献
国家有关部门联合颁布的《下岗失业人员小额担保贷款管理办法》,给了国有企业下岗失业人员更多的关注和帮助,但在实践中,下岗失业人员真正享受到这项政策扶持的却非常少。大多数
分析了清河电厂一期600MW机组(。9机组)HP1103型中速磨煤机外部气封装置漏风的原因,对磨煤机外部气封装置进行了加装复合橡胶密封改造,磨煤机外部气封装置改造后,提高了磨煤机的可
国际理解教育在中国越来越受到重视,实施的形式多种多样,而且渗透到学科课程之中。理解和尊重其他国家和民族的文化是国际理解教育的基础性内容,所以,异域文化也是社会科教科书的
<正>学校和家庭是两个教育者,家校共育是促进学生积极成长的重要方式。家校共育意味着家校建立平等的互相尊重的合作伙伴关系,家校积极沟通、统一思想、密切配合、步调一致,
当前中国动漫产业正处于无序混乱的状态。2007年,国产动画片《虹猫蓝兔七侠传》的禁播与复播正是这一状态的具体表现。本文试图对这一典型事件展开分析,阐明当前中国动画急需
随着社会和经济的不断发展,电子信息所派上的用场越来越多,作用越来越大。随着工程造价管理水平的不断提高,信息技术也成为重要的管理手段。传统的工程造价管理方法已经不能完全
当前,中国打响了疫情防控的人民战争。对奋战在一线的医护人员、科学家和正在抗击新冠肺炎疫情的人们表示敬意。他们忘我工作,全力以赴,英勇奉献,是这个时代的英雄。$$防控疫情在
报纸
借助Heston随机波动模型,利用一篮子期权对带有均值回复特性的能源商品价格风险进行对冲,通过矩匹配法和蒙特卡洛仿真法进行期权定价。同时运用真实能源市场中的石油、天然气、
水稻病害图像分割是提高水稻病害识别准确率的前提。论文研究了HSV、Lab、YCb Cr和RGB颜色空间下水稻稻瘟病、细菌性条斑病和稻曲病等3种病害图像分割方法。实验结果表明,HSV
合成了二氢杨梅素-锌配合物(DMY-Zn),采用紫外可见光谱、红外光谱、元素分析及热重分析(TG-DTA)法对其结构进行了表征,结果表明二氢杨梅素与Zn2+离子形成了配合物,其组成为[C15H10