音频驱动的舞蹈动作生成

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:konami_13
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音乐驱动的舞蹈生成作为计算机视觉和跨序列分析领域的重要研究内容,在虚拟现实、编舞、动画制作等各种生活场景中得到了广泛的应用。目前,现有的舞蹈生成方法要么只是专注于合成人体动作,而忽略了音乐和视频之间的联系;要么没有发现音乐和视频之间的强相关性。本文提出了一种基于音乐/音频序列的舞蹈动作合成模型。并且深入研究了舞蹈生成的一般过程,在此基础上引入了序列对序列(Seq2Seq)的概念。并根据舞蹈产生的特点,对目前主流的Seq2Seq学习方法进行了改进,除此之外还提出了一套没有参考来源的综合评价标准。主要的创新工作如下:(1)提出了一个跨域的Seq2Seq学习框架,用于现实的舞蹈生成。虽然目前已经提出了各种Seq2Seq方法,但大多数都只证明了它们在机器翻译方面的有效性。针对音乐和舞蹈的特点,本文对现有的主流Seq2Seq方法进行了改进,提出了一种新的跨域序列分析方法——基于自注意力-长短时循环神经网络(LSTM-SA)模型,该模型可生成和谐的、自然的舞蹈序列。(2)提出了一套没有参考来源的综合评价标准。音乐与舞蹈动作之间没有明确的参考映射,因此有必要寻找一些标准来评价生成的舞蹈序列是否自然,是否与音乐相一致。考虑到对舞蹈序列的研究较少,本文对生成的模型的优缺点进行了新的判定。为了保证评价的全面性,本文从主观评价和客观评价两个方面进行了评价。具体来说,本文提出了一种人工评分的方法,建立了一种新的基于深度学习的评分模型,并计算了原始舞蹈序列与生成的舞蹈序列之间的相关系数。(3)收集了一个包含音乐和对应舞蹈动作的数据集。目前几乎没有动作捕捉数据能够同时包括音乐数据和舞蹈动作数据。据我们所知,至今还没有开源的同步音乐和动作捕捉数据集。为了实现音乐驱动的舞蹈动作生成模型,我们创建了新的音乐-舞蹈数据集Music&Dance2019。该数据集是从互联网上收集的质量较高的舞蹈视频。(4)实现了一个音乐驱动的舞蹈生成系统。该系统将音乐驱动的舞蹈生成流程集于一体,共分为三个主要模块:音乐样本的选取、舞蹈序列的合成以及对合成的舞蹈序列进行打分。利用该系统可以清晰地显示音乐序列中不同生成阶段的舞蹈生成结果,并基于不同的Seq2Seq模型对音乐驱动的舞蹈生成的表现进行对比分析。
其他文献
随着智能设备的升级和网络技术的迅速发展,人们接触到的图像越来越丰富和多样化。如何让机器更好地理解图像的语义信息并为人们的生活提供便利已成为图像研究的热点之一,尤其近几年在深度学习和跨模态领域(计算机视觉和自然语言处理)的巨大突破,图像问答任务已成为人工智能的重要研究方向。根据不同任务情形,研究者们提出了很多解决方法,基本思想通常都是提取图像特征与文本特征融合再对答案进行预测,或是在像素级别使用注意
近年来,随着计算机视觉的快速发展,移动机器人的应用场景也越来越广泛,同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)是实现智能机器人自主导航的核心技术。考虑到人们大多数的活动都处于室内,传统的基于GPS与惯导的定位技术在室内场景存在信号容易丢失等弊端,因此本文主要研究基于RGB-D相机的室内定位算法。本文主要的研究工作有:(1)本文提出了一
近年来,大数据分析技术在医疗领域逐渐得到了广泛的应用。其中,聚类方法通过计算数据间的相似度得到类簇从而帮助我们发现样本间隐藏的联系。而将聚类技术应用于医疗领域能够挖掘医学数据中的潜在信息,为医学研究人员提供决策支持。本文对聚类技术在疾病危险因素上的提取算法模型做了研究,具体工作如下:本文构建了基于改进Canopy的K均值算法模型以提取危险因素。首先基于特征选择双标准策略对数据进行特征筛选,利用改进
计算机视觉是指用摄像设备和计算机模拟人类视觉对目标进行识别、跟踪、测量的机器视觉,通过对图像的识别分析对其中的图形进行进一步处理,使其成为更适于仪器分析和人眼观察的图像。计算机视觉能够在客观世界感知三维场景、识别和理解,能够实现视觉感知、图像识别、人脸识别、目标定位等。在现代社会中计算机视觉及相关的算法具有很总要的研究价值。卷积神经网络在局部感知、信息捕捉的优势,使其在计算机视觉的研究方面发挥了重
古籍是记录与承载中国历史文化资料的重要途径,其丰富的历史和文化内涵是优秀传统文化的重要部分。目前,学术界针对古籍的文化相关研究主要为古籍资料数字化保护方法,针对古籍的文化大众化传播的研究较少。网络技术的发展,革新了古籍的文化传承方式,为其传播带来了新的契机。本课题以南京古籍书店为例,结合传播学理论、系统化的用户需求研究工具与方法,得出了南京古籍书店的新媒体传播策略与交互体验策略,旨在通过融合新媒体
毫米波连续波雷达与脉冲体制雷达相比具有高距离分辨力、结构简单和高接收灵敏度等优点,但因为连续波雷达的体制,发射机对于接收机有泄露问题,所以如何提高收发通道之间隔离度是阻碍其广泛应用的难点。对于这一难题,各种对应的解决办法被提了出来。其中毫米波射频对消技术是值得深入研究的一个方向。本论文在这样的背景下,对毫米波对消系统进行了全面的研究。首先,本文介绍了连续波雷达的现状以及问题,并给出了现有的解决方案
随着仿生技术的不断进步,各式各样的仿生机器人陆续出现在科技前沿和人们的视野之中,而对海洋开发的不断需求和海上作战的需要,使得水下机器人也逐渐受到科学家们的重视。本文通过对水母的形态和运动机理等进行研究,设计出了一种仿生水母机器人,以机械臂作为驱动方式,实现水母的水下运动功能,并对其进行了仿真分析和控制算法的研究。根据仿生设计的特点,首先对水母生物体进行形态分析,选择伞状体作为主要的仿生元素,以四条
目标检测是计算机视觉领域的关键任务之一,本课题以无人车辆在野外环境下侦察到的图像为研究对象,检测和识别出每个野外目标对应的边界框和所属的具体类别,最终形成比较完备的目标检测系统。具体内容如下:(1)制定了野外目标数据集的采集方案,通过相机采集和网络爬虫收集筛选制作了本文使用的野外目标数据集。分析了野外目标的特性,通过无人车采集到的图片中的野外目标往往具有迷惑性、遮挡较严重、目标距离较远等特点。为了
大数据时代的到来使得数据挖掘技术及其应用的领域得到了拓展,涌现出各类数据挖掘算法,其中Apriori算法作为较为经典的关联规则挖掘算法受到了广泛的关注,出现了众多的改进Apriori算法,随着挖掘数据量的增加,如何通过分布式集群来扩展数据挖掘处理能力提高效率,具有非常现实的应用价值和意义。本论文在深入分析研究现有相关Apriori算法的基础上,针对算法在事务数据的存储表示、候选项集生成方式、剪枝效
逆合成孔径雷达成像作为一种远距离、全天时、全天候的微波成像技术,一直是各国重点发展的对象,并已广泛应用于航空、防空、空间监视、导弹防御等军用和民用领域。雷达在观测目标的过程中,有很多原因导致回波脉冲的丢失,从而造成孔径的稀疏。在稀疏孔径条件下,距离多普勒成像结果会出现主瓣展宽并受到杂波影响。压缩感知技术是处理稀疏孔径问题的基本方法,但传统的压缩感知算法均假定目标的强散射点位于划定的网格点上。而实际