数据驱动的说话人头像技术及双模态表情识别研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户：haohaia9

【摘要】

：

说话人头像(Talking Head)技术是自然人机交互领域近年来一个非常活跃的研究方向，作为智能前端广泛地应用于许多计算机和网站应用系统。正是说话人头像技术这种说话人头像与语

【作者】

：

辛乐

【机构】

：

中国科学院自动化研究所

【出处】

：

中国科学院自动化研究所

【发表日期】

：

2008年期

【关键词】

：

自然人机交互说话人头像三维人脸建模人脸动画可视语音合成语音驱动情感识别隐马尔可夫模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

说话人头像(Talking Head)技术是自然人机交互领域近年来一个非常活跃的研究方向，作为智能前端广泛地应用于许多计算机和网站应用系统。正是说话人头像技术这种说话人头像与语音的双模态和并行协作的同步表达技术，能够促进人机交互向人与人之间的交互靠拢，突破目前以鼠标和键盘为代表的交互瓶颈，大大改进现有人机交互技术的自然性和高效性。目前说话人头像系统的表达效果仍然受到很多限制，远远不能完成构筑能说会道和富于表情的人脸表达的目标。　　本文从实现具有表现力的说话人头像智能多模态信息表达技术的角度，简要地介绍了特定三维人脸建模、人脸动画和多模态情感识别的研究背景和意义。以此为基础，利用现有数据采集设备、语料切分和标注工具所创建的多模态数据库，利用近年来的统计分析、机器学习技术的发展，依次围绕基于视频序列的真实感个性化快速三维人脸建模，具有表现力的语音驱动人脸动画生成以及增加表情感知功能的双模态表情识别等方面进行了一些初步讨论。　　本文的主要工作包括以下内容：　　 ①关注于真实感可动画三维人脸的自动建模研究，提出一种新颖的基于视频序列自动进行精确三维人脸建模的算法。首先，利用可方便得到的硬件资源(如价格低廉的网络摄像头)获取了一段低质量的视频序列。然后，本文作者的算法就高效而自动地对其进行分析，最大限度地获取人脸精确的三维结构信息。该项技术具备方便获得输入视频(使用USB摄像头拍摄的低质量视频即可)，用户使用方便(只需要用户在摄像头前面简单地转转脖子)的优点，而且整个人脸建模过程完全自动进行，不需要用户的任何交互，方便广泛人群享有更多的数字乐趣。本文算法有效解决了处理序列图像匹配的问题，有力地推动了基于图像／图像序列的三维人脸建模研究。　　 ②在语音驱动的可视语音合成研究中，本文致力于语音与人脸动画同步映射建模(音视频映射)问题的研究。本文立足于对声学语音和可视语音之间同步交互作用的分析，从已在音视频融合方面取得良好效果的HMM出发，提出了一种基于Fused HMM求逆运算的动态音视频映射算法。该算法使用Fused HMM模型显式地表达音视频紧密相关的两个同步序列。对于给定的语音新输入，基于Fused HMM的求逆运算，通过最大化由Fused MMM表征的联合概率分布合成对应的视觉最佳输出，保证高质量的可视语音合成。本文作者提出了基于两层聚类的多模态数据子类抽取思路，保证实时真实感语音驱动人脸动画输出。　　 ③提出了一种基于bossting的自适应权重的双模态情感识别新方法。该方法在分类各种情感时，考虑了各模态特征不同的主导作用，而且在训练阶段自动调整反映主导信息的权重。该方法能够更有效提高识别易混淆情感类别的性能。为了增强下半部分人脸视觉表情参数的提取，我们也提出了与发音无关的唇部运动模型。为了提取视觉参数，需要得到不受噪声污染的人脸特征点跟踪结果，提出使用在六种特定表情人脸形状形变流型中进行点分布模型搜索的方法来保证跟踪的质量。　　本文对数据驱动说话人头像技术和双模态情感识别一些关键技术做了一些有益的尝试和探索，并取得了一些初步成果。希望本文的工作和有关结论能够对具有表现力的说话人头像技术研究提供帮助。

其他文献

并联坐标测量机运动仿真及其碰撞检验算法研究

坐标测量机是一种集机械、光学、电子、数控技术和计算机技术为一体的大型精密智能化测量仪器，它已成为现代工业检测、质量控制和制造技术中不可缺少的重要测量设备。并联机构

学位

并联坐标测量机运动仿真粒子群算法碰撞检验算法OpenGL图形库

基于循环神经网络的声学建模方法研究

基于语音的人机交互方式，因便捷高效而越来越受到人们的青睐。语音识别作为其中最关键的技术之一，长期以来都吸引了大量的科研人员。近年来，基于加门循环神经网络的语音识别技术

学位

语音识别声学建模循环神经网络

基于对抗学习的非受控环境下人脸识别方法研究

随着深度学习技术的快速发展，人脸识别技术取得了重大突破并迎来了运用的井喷期，目前已被广泛地应用于银行金融、公共安防以及社交媒体等场景。此外，在大数据时代背景下海量人脸

学位

人脸识别对抗学习卷积神经网络非受控环境

基于离散微分几何的数字几何处理研究

多媒体革命性的进展已经经历了三代：声音，图像和视频。而九十年中后期发展起来数字几何处理(DGP：Digital Geometry Processing)是一个年轻而活跃的研究领域。其研究目标是为了新

学位

数字几何处理网格编辑网格光顺交叉参数化网格分割

基于神经网络的地震震级时间序列预测方法研究

地震预测是基础研究领域的一个重要课题，如果能准确预测即将发生的地震，就可以在地震来临前及时向政府和人民发出预警信号，帮助人们采取有力措施，避免重大的人员伤亡和经济损失。

学位

地震预测时间序列神经网络小波去噪遗传算法

现代交通管理技术背景下的网络均衡行为与道路收费优化方法研究

现代交通管理技术背景下的交通网络均衡分析与模型研究,是未来交通规划、交通网络改造、交通政策制定、道路收费标准决策以及交通管理技术评价与选择的重要基础。最近关于网

学位

道路收费道路收费交通管理交通管理交通网络交通网络网络均衡网络均衡交通规划交通规划收费优化收费优化路径选择路径选择

城市供水处理混凝投药过程的建模与控制研究

混凝剂投加是城市供水处理过程中净水处理的重要环节,准确地投加混凝剂可以有效地减轻过滤、消毒设备的负担,在保证满足出厂水浊度要求的前提下尽量减少混凝剂的投加量,具有

学位

城市供水城市供水净水处理净水处理混凝投药混凝投药神经网络神经网络二次优化控制二次优化控制

适于伞兵定位的MEMS导航系统的设计研究

随着现代军事技术的飞速发展,现代的空降作战已成为一种战法丰富、类型众多、效能显著的作战行动。空降部队在空投后能否迅速完成集结整顿是空降作战成败的关键。微惯性测量

学位

组合导航组合导航全球定位系统全球定位系统惯性导航惯性导航伞兵定位伞兵定位

供给和需求视角下的企业规模分布研究

在自然界和人类社会，普遍存在着幂律分布的现象，它是复杂系统宏观涌现性的典型表现，对其形成机制和性质的探索是复杂性研究的一个重要课题。同时，经济系统作为一个复杂系统，对企业

学位

市场需求企业规模产品销售

稀有气体质谱仪计算机自动测量软件的开发

目前,我国质谱仪的自动化测量程度较低,质谱测量主要是以手动和半自动为主,这使得质谱测量成了一项耗时长、强度大的工作,质谱测量过程的自动化将有效缓解这一局面。本文以介

学位

稀有气体质谱仪稀有气体质谱仪自动测量软件自动测量软件对象建模对象建模RS232通信协议RS232通信协议Windows应用程序Windows应用程序

数据驱动的说话人头像技术及双模态表情识别研究

其他学术论文