基于单图像的自适应三维人脸重建

来源 :天津大学 | 被引量 : 0次 | 上传用户:Forest2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于图像的人脸重建有着广泛的应用前景,一直是一个重要且具有挑战的问题。尽管现有的基于多图像的人脸重建方法已经取得了可喜的成果,但由于操作设备价格昂贵和图像捕获困难,使得在实际应用中具有很大的局限性。单图像的获取更容易且不需要昂贵的器材,因此探索基于单个输入图像的人脸重建方法尤为重要,但是单图像中如果存在遮挡情况,则无法捕获到被遮挡区域的语义信息。目前解决这一问题的办法有两大类,一类是基于深度学习的方法,通过构建神经网络框架和大量的数据学习,得到近似于重建目标的人脸模型,缺点是对数据集有严重依赖型,并且目前三维人脸模型真值数据缺乏,这极大限制了此类方法的效果;第二类是基于传统的模型拟合方法,这类方法依赖于人脸关键点检测的准确性,但是自遮挡情况下的轮廓关键点检测通常不准确,目前有效的方法是采用人工标记轮廓关键点,此方法需要耗费大量人力和时间,且不能处理完全侧脸的大姿态问题,因此寻找一个能够基于单图像重建任意姿态下的三维人脸模型的方法极为重要。本文提出了 一种自适应重建三维人脸模型的方法,可以从单张图像自动重建任意姿态下的人脸模型,本文提出的创新方法和贡献点总结如下:1.由粗到精的姿态估计:为了准确地估计姿态参数用于人脸重建,本文提出了一种利用2D和3D关键点的由粗到精的姿态估计优化方案。首先利用2D关键点估计人脸朝向作为粗姿态,然后将其设为初始值,最后结合3D关键点估计一个更准确的姿态参数。2.2D和3D联合优化:本文在一个统一的2D和3D联合优化框架中解决三维人脸重建问题。在拟合函数中,根据获取的姿态估计来自适应地调整2D和3D关键点的权重。其中,2D关键点对于可见区域足够准确,而3D关键点具有的空间位置信息对不可见区域的检测更准确。为此,本文提供的自适应权重调整方案可以分别处理任意下的人脸重建问题。在多个数据集上进行的实验表明,本文的方法可以基于单图像完成高质量的人脸重建,这对于自遮挡和较大的姿势也具有鲁棒性。
其他文献
复杂网络中一些具有高度连接特性的节点更倾向于共享相同的属性,所以在复杂网络中,往往隐含着很多功能模块,这些功能模块称为社团,社团发现方法可以有效分析并探索社团结构,可以帮助人们更好地理解复杂系统的交互原理并预测他们的未来发展趋势。近年来,许多社团发现方法被不断提出,其中基于统计模型的方法由于其坚实的理论基础和优越的性能而得到了广泛的应用。随机块模型(Stochastic Block Model,S
学位
眼动交互作为一种新兴的人机交互方式,具有广泛的应用前景,尤其是在虚拟现实领域,更是近年来的研究热点。眼动交互的前提是精准快速地注视点估计,本文对头戴式设备中的注视点估计方法进行了研究,搭建了一套头戴式眼动跟踪系统,并对文中的算法进行实际场景测试。注视点估计方法可以分为基于几何模型的注视点估计方法和基于外观的注视点估计方法。本文首先研究了基于几何模型的注视点估计方法,该方法在眼动特征与注视点之间建立
学位
在卷积神经网络中,密集型的计算会使软件运行速度过慢,很难达到复杂应用的实时响应,因此针对卷积神经网络的硬件加速方案逐渐成为了主流。现有的卷积神经网络已被证明超过90%以上的计算是在卷积层完成的,而且传统卷积层的输入特征图与卷积核乘累加的计算会因加法树的存在而限制并行性,本身的浮点计算量也非常的巨大,严重影响了整个网络的计算时间。因此,针对卷积层的算法改进及硬件加速对整个卷积神经网络的运行效率和性能
学位
视频超分辨率是计算机视觉领域的核心问题之一,主要目的是通过超分辨率方法将低分辨率帧(参考帧)和多个连续帧(相邻帧)恢复成高分辨率视频帧。它是计算机视觉和图像处理中的一个经典且具有挑战性的课题,该方法对于提升早期胶片视频整体的清晰度和像素质量有着重要的意义,其成果在多个领域,例如遥感视频,视频监控,图像医疗和数码摄像等方面有着重要的实用价值。与单图像超分辨率不同的是,视频超分辨率存在帧间的时序信息。
学位
近些年来,随着无线通信技术快速发展,移动互联网向无线端迅速延伸。一方面,通信方式不断增加,覆盖范围持续扩展,业务多样性明显提升,给人们生活带来了显著变化。另一方面,随着社交网络、人工智能、大数据等信息产业的发展,数据信息量的大幅攀升,呈指数增长的人和机器需要实时构建信息网络,对无线网络的需求加速更新。新兴业务对通信服务质量和用户体验等要求的提升,使得传统通信技术难以满足信息量的现实需求。其中的核心
学位
篇章关系识别(Discourse Relation Recognition)旨在理解两个相邻的篇章单元(称为论元)之间的语义连接关系,包括偶然关系、比较关系、扩展关系和时序关系等,其广泛应用于文本摘要、智能问答、机器翻译等自然语言处理领域中。与显式篇章关系不同,隐式篇章关系识别任务由于不能通过连接词直接识别篇章关系,需要结合特定的上下文特征对篇章进行理解,逐渐成为一项极具挑战性的研究任务。目前,隐
学位
近年来,语音合成技术逐渐受到了国内外研究者的广泛关注。在情感语音合成中,如何利用有限的数据进行语音合成模型的训练,以及如何对模型进行改进以适应带有情感风格的非语言韵律特征等问题,依然是目前亟待解决的。对于情感语音合成任务而言,去获取每个说话人的大规模情感语音数据是具有难度和高成本的。所以本研究提出了一种利用情感语音分类任务的中间结果进行迁移学习的方法,该方法能够有效利用低数据资源下的情感语音数据,
学位
深度学习的快速进步促使深度学习算法在计算机视觉、自然语言处理等领域的不断发展,出现了诸如自动驾驶、机器翻译等实际应用系统,不断便利着我们的生活。深度学习依赖于大量标注数据,我们不得不耗费昂贵成本保证其有效工作。但是仍然存在对于少训练样本类别性能下降和无训练样本类别性能近乎为零的问题。为了解决这一问题,使得深度学习系统能够同时识别已见类别和未见类别,学术界提出零样本学习。零样本学习利用已见类别和未见
学位
同时定位与建图(Simultaneous Localization and Mapping,SLAM)在机器人导航、增强现实等应用中具有重要意义,并获得广泛关注与研究。由于视觉传感器具有场景语义信息丰富、成本低廉等优势,视觉SLAM算法在理论研究和实际应用中都得到了快速的发展。现有视觉SLAM算法框架一般可分为视觉前端追踪和后端优化两部分。视觉前端追踪通常采用关键帧思想,对帧与帧之间的相对运动进行
学位
虚假评论识别对于保障消费者和商家的权益以及保证科研数据准确具有重要的意义和价值。目前虚假评论识别主要有两类方法:第一类方法是提取评论文本和评论者相关的统计特征,然后采用传统机器学习模型进行识别;第二类方法是采用深度学习模型提取评论文本语义特征来进行识别。本文在这两类方法的基础上,以Yelp评论数据集为研究对象,构建了一种结合统计特征和文本语义特征的虚假评论识别模型SF-MCLSTM。本文主要的研究
学位