基于级联对抗网络的跨模态生成方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:wxf19860413
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和社交网络的飞速发展,日常生活中每时每刻都在产生海量数据,如何利用海量数据来实现智能任务已经成为当前的研究热点。在实际应用中,海量数据通常是以不同模态形式存在的,如文本、图像、视频、音频、3D模型等。虽然海量数据的存在形式不同,但是不同模态的数据可能具有高度的相关性甚至是描述同一事物。在当前基于多模态数据的研究中,利用不同模态数据相关性的跨模态智能及相关研究因其应用广泛而备受关注。跨模态生成作为跨模态智能的子任务,在实际生活中有着广泛的应用,如计算机辅助设计、图像编辑、机器翻译以及信息数字化等。从目前的研究来看,基于深度神经网络的跨模态生成方法明显优于基于传统机器学习算法的跨模态生成方法,并且已经成为跨模态生成领域的主要研究方向。跨模态生成不仅需要根据一种模态数据生成与之对应的另一种模态数据,并且要求生成数据与真实数据高度相似以至于难以区分。在跨模态生成任务中,本文以级联对抗网络作为基础生成框架,主要研究了文本、图像和三维点云之间的跨模态生成方法,具体的研究内容如下:(1)提出一种基于背景诱导与多级判别器的文本生成图像方法。该方法将级联对抗网络和混合注意力机制相结合构建了多阶段图像生成框架。同时,背景图像作为辅助信息被添加到多阶段图像生成框架中。在文本描述和背景图像的联合约束下,所提方法能够在给定背景下生成前景目标不同的多样化图像。此外,还引入一种多级判别器及对应的多级判别损失来进一步提升图像生成性能。在CUB bird数据集上的实验结果证明了所提方法的优越性以及在给定背景下的图像生成能力。(2)提出一种基于单幅图像重建稠密点云的级联生成方法。该方法将预重建网络和上采样网络相结合构造了多阶段点云生成网络。同时,设计一种图像再描述机制,通过重建点云再生成图像来优化多阶段点云生成网络。此外,引入暹罗结构用于从多幅图像中提取一致的高阶语义,从而进一步增强图像与重建点云之间的语义相关性。在多阶段点云生成网络的优化过程中,通过分阶段训练和整体网络微调等操作,显著降低了该网络的训练难度。在Shape Net数据集上的大量实验表明,所提方法的性能明显优于现有的点云重建方法。
其他文献
近年来,我国经济结构的不断调整、金融市场本身的发展限制以及贷款结构开发的不合理性,均是加剧我国银行业违约风险水平不断创新高的重要原因,中国银行业整体的业务规模和贷款总额的发展节奏也从早期的快速逐渐转为缓慢,使商业银行面临控风险、稳绩效的强大压力。目前商业银行的净利息收入仍是其营业收入的主要来源。公司层面而言,商业银行开展信贷业务,信贷结构的合理制订或有效调节与其利息收入和利润程度是紧密联系的;实际
学位
目的 探讨惊恐障碍的治疗方法。方法 将60例惊恐障碍患者随机分为两组,各30例。对照组给予帕罗西汀治疗,研究组加用rTMS治疗。分别在治疗前及治疗后第1、2、4、6周末采用HAMA进行评定,采用TESS评定不良反应。结果 随治疗时间的延长,两组HAMA评分均呈下降趋势,但研究组下降幅度优于对照组;研究组有效率为86.67%,高于对照组的63.33%(χ~2=4.36,P=0.037);两组不良反应
期刊
本报告是笔者基于口译实践而完成,选取的口译材料是2012年诺贝尔文学奖获奖者莫言的获奖感言。2012年12月8日,莫言在位于首都斯德哥尔摩老城的瑞典文学院发表演讲“讲故事的人”。作为诺贝尔文学奖得主,莫言此次讲话备受国内外关注,其言语朴素,表达内容却丰富深刻,极富内涵。作者在口译的过程中发现,要想将讲话内容与含义译为英语,除了语言能力,还需要时刻具备跨文化交际意识,在此基础上寻求口译策略,应对跨文
学位
随着互联网技术的不断发展,机器翻译应运而生,为语言服务行业带来了翻天覆地的变化。机器翻译在文本处理速度和处理量方面具有人工翻译无法比拟的优越性,但在翻译质量和准确度方面,机器翻译仍存在很大的提升和优化空间。而译后编辑可以有效改善机器翻译,是人机交互翻译的重要体现。作为一种行之有效的翻译辅助手段,译后编辑已成为机器翻译系统的有机组成部分。因此,“机器翻译+译后编辑”模式得以推行,既能保证翻译质量,也
学位
智能终端与互联网技术相结合促进了移动社交网络的迅速发展,移动社交逐渐成为日常生活中不可或缺的组成部分。作为人们展示兴趣、技能的平台,移动社交网络成为人们开展社交活动的重要载体。用户匹配在移动社交网络提供的各种服务中发挥着重要作用,精确高效的用户匹配,可以提高社交服务的质量,促进用户之间的交互。在用户匹配中,个人属性配置文件(特征描述和社交习惯)通常作为判断用户关系是否符合特定要求的依据。然而,个人
学位
时间序列是具有时序关系的数据集合,广泛存在于自然界和社会生产生活中。受内、外部因素影响,时间序列通常具有非线性、不确定性的特征。如何从历史数据中学习其潜在的规律,预测数据未来的变化趋势,一直是研究者关注的课题。模糊认知图具有数值推理、可解释性等特点,在时间序列预测中得到广泛应用。本文在模糊认知图的基础上做了进一步的改进来分析和研究时间序列,主要包括以下内容:(1)为了在不确定的环境下对时间序列进行
学位
由于人口数量不断增多,在一些公众场所内,容易聚集大量人群。当人群流量密集的场所中出现火灾、坍塌等紧急情况时,需要及时的对场所内的人员进行疏散。先前有学者通过组织一定数量的人员在某一特定场所内进行疏散演习,但此类方法需要耗费大量人力物力且不易复现。随着计算机仿真技术的发展,有学者开始在人群疏散领域中使用计算机仿真技术来模拟人群疏散过程,人群疏散仿真方法相比于传统的组织人员进行疏散演习方法可以节省人力
学位
Leukemia is a type of blood cancer that affects both children and adults,and it is one of the leading causes of death all over the world.Acute lymphoblastic leukemia(ALL)is the most wellknown types of
学位
近年来,在大规模突发事件中,情绪感染往往会导致踩踏、碾压等事故的发生,引起了公共安全领域的高度关注。随着信息通信技术的发展,人们可以通过信息-物理空间紧密相连。由于信息空间和物理空间人群具有异质性且会被复发性情绪二次伤害。因此,真实模拟信息-物理社会(Cyber-Physical Society,CPS)中人群情绪感染过程,对规避恐慌情绪蔓延、避免人群受到二次伤害以及为人群疏散提供指导非常重要。迄
学位
In recent years,the Wi Fi sensor constrains the Human Action Recognition scheme to an immovable location when providing training samples,drastically reducing practical application.Furthermore,a locati
学位