基于隐空间操作的面部表情编辑方法

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:daweinihao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面部表情编辑旨在以细粒度条件处理人脸图像的表情,同时其它与人脸表情无关的区域保持不变。随着信息化的逐渐普及以及数字媒体技术的发展,面部表情编辑逐渐受到越来越多的研究者的关注。目前面部表情编辑工作都是基于生成对抗网络(GAN)的架构的改进,但并没有考虑到如何解开不同表情属性之间的耦合。耦合会导致与条件无关的区域(如背景、面部细节等)也被影响变化,这就极大的影响了可控编辑的准确性。同时,属性的混叠可能会导致生成图像出现重叠,伪影等问题,从而影响生成图像质量。本文针对以上问题提出了三种面部表情编辑方法,可以在保存原图细节的情况下进行准确的表情编辑,同时可以有效地解决生成图像的伪影问题。本文的主要贡献如下:1.隐空间操作模块(LSMM)。提出了一种基于隐空间操作的编辑基线模型,该算法通过给定的表情控制向量来学习一个增量,从而将图像深层表达转变为目标特征来实现可控编辑。在AffectNet数据集的实验结果验证了该算法的有效性。2.交叉注意力操作模块(CAM)。由于基线模型LSMM只是学习一个增量的映射变化,并没有关注到输入图像的隐向量与控制向量之间的关联信息。本文提出了另外一个基于隐空间操作的交叉注意力模块来实现可控编辑。该方法通过挖掘隐向量和控制向量的深层特征关联,从而能够更为有效的拟合表情流型中的变化方向。3.多尺度特征操作模块(MSFM)。目前最先进的可控编辑方法(属性编辑以及表情编辑等)都会或多或少出现细节丢失的问题(如背景、人脸无关区域细节等)。本文通过构建一个多尺度特征操作模块来生成一个与编辑区域相应的掩码注意力图,从而对非编辑区域进行有效的信息补充。通过结合基于隐空间操作的模块(LSMM和CAM),该方法在多个数据集上(AffectNet、FFHQ、CelebA)上均取得了最为先进的结果。
其他文献
图像语义分割旨在实现像素级的标签分类,是人工智能的热门研究方向之一。语义分割作为一项基础的视觉感知任务,其可以被广泛的应用于多种场景下,如无人驾驶、视频监控以及智能医疗等。由于卷积神经网络拥有较高的可迁移性和鲁棒性,基于卷积神经网络的语义分割方法被广泛使用。注意力机制通过模拟人类视觉机制的原理可以使模型有选择性地关注图像中的重要区域,以此提升分割效果。因此本文主要对基于注意力机制的图像语义分割方法
学位
随着虚拟现实、物联网和智能制造等新技术的日趋成熟,广泛使用的云计算无法满足海量连接下的数据传输和处理。为了得到即时的反馈,边缘计算通过把计算节点迁移至移动接入网的边缘来降低传输时延。受硬件限制,边缘节点可能达到满载从而影响计算响应的时延,降低服务质量,策略路由可以实现边缘计算下的任务调度,为了减小任务调度带来的额外时延等影响,强化学习能够使策略路由具有资源感知和负载均衡的能力。本文对边缘计算下基于
学位
随着软件产品变得越来越庞大,越来越复杂,第三方库已经成为大多数软件的必要组成部分。开发人员通常需要用另一个库替换一个库,同时维护库的相同功能。用不同的库替换一个库,这个变动的过程就称为库迁移。库迁移是一项非常乏味并且枯燥的任务,同时,迁移往往意味着非常大的工作量。迁移过程被广泛认为是一个困难的、容易出错的和耗时的过程。这种手工流程很复杂,而且对公司来说成本很高。为了解决上述库迁移过程中的问题,本文
学位
互联网的快速发展,给人们提供了在线学习的条件和机会,很多希望提高自身知识水平和专业技能的人都选择参与在线教育来达到目的,而不论是线上还是线下教育,都产生了大量的学习互动数据,这些数据真实地反应了学习者的兴趣话题、情感态度、学习体验等特征,因此对于教育交互数据分析的成果,可以更好地帮助学习者定位学习资源,帮助教师组织教学内容,还能帮助课程平台加强基础建设。中国大学MOOC平台是国内提供众多开放式网络
学位
随着互联网技术的蓬勃发展,越来越多基于移动设备开发的语言学习APP在此期间应运而生。目前,此类APP主要使用了间隔重复算法来计算再次记忆单词所需要的间隔时间,帮助用户更好地记忆单词,进而提高他们学习单词的能力。但是,传统的间隔重复学习算法仅仅通过固定的公式来计算再次记忆单词的间隔时间,忽略了个体用户记忆能力和学习能力的差异性,这会导致计算的间隔时间无法自适应用户的个体化差异。因此,如何更精确地计算
学位
航电系统是一种可靠性要求度极高的安全关键系统,形式化验证将贯穿在航电系统中的每个生命周期阶段。在工业界,EA由于其具有普适性被广泛应用在各个领域的模型构建中。而在航电领域,AADL由于其出色的航空体系架构能力而被广泛应用。如何提高EA的形式化验证能力和航电系统的体系架构分析能力,是一个待以解决的问题。针对航电系统的特点和需求,本文提出的工具链是一类模型转化器,包含Safety_SysML和EA2A
学位
由于移动通信网络实时性强、吞吐量大、场景复杂度高、故障有效数据易被覆盖以及通信信息数据呈现出非规则非线性等因素,目前的移动通信网络故障诊断方案往往面临资源开销大、响应慢、准确率低以及缺乏灵活性等问题。针对这些问题,本文从故障数据源获取以及诊断策略角度入手,运用限流算法、SOM算法、K-Means算法、TF-IDF算法以及3GPP相关知识等方法提供了一种低开销、快速、准确、轻量通用的智能化故障诊断方
学位
指静脉识别作为一种生物特征识别技术。实现原理是依据特定波长的红外光线照射手指获得静脉影像,通过提取静脉影像特征来进行个体身份识别认证。由于其实现原理的特性,指静脉识别技术是一种非接触式的生物特征识别手段。在当前新冠疫情的背景下,该识别技术能够在有效的保证个体识别准确率的情况下,避免交叉感染。指静脉识别相较于其他识别技术,还有活体识别、精确度高、识别速度快等优点。本文从手指静脉图像的预处理,图像增强
学位
图像到图像的翻译是计算机视觉中图像处理的一个领域,目的是为了训练出一个模型,来进行图像和图像之间的转化。图像增强是图像到图像的翻译的一个方向,虽然基于深度学习的方法在图像增强和图像恢复上已经拥有了很多的成果,但是依然存在着不足之处。这篇文章提出了一个基于生成式对抗网络GAN的图像增强的神经网络,研究了在缺少正常/低光照图像对的情况下,仍然可以学习出低光照图像到正常光照图像的映射,因为在正常情况下获
学位
脑肿瘤、缺血性脑卒中和脑出血是目前神经系统常见的三种严重疾病,对人类的生命健康及生活品质会构成严重威胁。随着医学成像技术的蓬勃发展,医学影像分析(Medical image analysis)已逐渐成为辅助医生临床疾病诊断和研究的重要手段,其中电子计算机断层扫描图像(Computed Tomography,CT)由于其具有成像快,价格低以及对血红蛋白敏感性度高等优点而在诊断脑出血时应用广泛,而核磁
学位