【摘 要】
:
近年来,语音合成技术逐渐受到了国内外研究者的广泛关注。在情感语音合成中,如何利用有限的数据进行语音合成模型的训练,以及如何对模型进行改进以适应带有情感风格的非语言韵律特征等问题,依然是目前亟待解决的。对于情感语音合成任务而言,去获取每个说话人的大规模情感语音数据是具有难度和高成本的。所以本研究提出了一种利用情感语音分类任务的中间结果进行迁移学习的方法,该方法能够有效利用低数据资源下的情感语音数据,
论文部分内容阅读
近年来,语音合成技术逐渐受到了国内外研究者的广泛关注。在情感语音合成中,如何利用有限的数据进行语音合成模型的训练,以及如何对模型进行改进以适应带有情感风格的非语言韵律特征等问题,依然是目前亟待解决的。对于情感语音合成任务而言,去获取每个说话人的大规模情感语音数据是具有难度和高成本的。所以本研究提出了一种利用情感语音分类任务的中间结果进行迁移学习的方法,该方法能够有效利用低数据资源下的情感语音数据,在多情感语音合成模型中,通过从情感语音分类任务中提取的具有情感信息和语音韵律信息的嵌入向量的帮助,指导语音合成模型的迁移学习过程。对于情感语音合成而言,由于某些情感语音(如开心和困倦)的独特性,其发音中存在非语言韵律特征。针对这一问题,本研究提出了长时序权重注意力机制对端到端语音合成方法中注意力机制进行改进,在注意力机制当中引入了用于计算权重信息的前步权重结果的长时序依赖。除此之外,由于某些情感语音(如开心和困倦)在低数据资源下无法保证结束预测的鲁棒性,所以引入了卷积结构对结束预测单元进行了修改。本文在EMOV-DB语音数据库下进行实验,实验结果表明,采用情感分类任务提取的嵌入向量,能够在情感语音合成过程中引入更多的信息。长时序权重注意力机制和卷积结构结束预测单元可以进一步提升带有非语言特征的情感语音合成结果的鲁棒性。
其他文献
当我们看一张图像时,便会很自然地联想图中人物间的关系,这能为人物性格以及可能将采取的行为提供线索。在计算机视觉领域,社会关系信息也大有用处,可被用于提高其他任务准确率,如人物轨迹预测、多目标跟踪等。目前该领域工作大部分都是针对特定场景的,因为社会关系的复杂性为通用场景下社会关系识别的完备性及准确性带来挑战。本文工作就是一种通用的社会关系识别方法。现如今,已有的相关工作还存在以下两个问题:忽略不同人
二分网络的链接预测算法能够有效地识别异质类型节点之间的潜在关系,有助于分析网络的结构演化规律,在刻画以人为主体的复杂网络算法中得到了广泛的关注。常见的二分网络可以包括学者节点-机构节点二分网络、用户节点-物品节点二分网络等。然而,现今的链接预测算法存在网络数据稀疏、噪音信息多的问题。为了缓解这些问题,本文提出了基于耦合语义特征的二分网络链接预测算法,耦合语义特征抽取自不同类节点的相同文本信息中,从
深度神经网络因其强大的特征表征能力而被广泛应用于人脸识别、目标检测、车牌识别等领域,极大地方便了人们的生活。然而,研究表明神经网络在面对含对抗噪声的对抗样本时展现出的脆弱性严重影响了它们的性能,更有甚者会造成很大的安全隐患。为了解决这个问题,大量传统对抗防御算法被提出,其中最有效也是应用最广泛的方法是对抗训练,即将对抗样本作为数据集,对模型进行训练,使得模型学习到含对抗噪声样本的数据特征。大量研究
DNA甲基化是一种特别重要的表观遗传机制在许多细胞功能中起重要作用,如遗传性能,染色质结构和抑制重复性序列。N4-甲基胞嘧啶(4m C)是在原核和真核生物基因组中检测到的三种常见的DNA甲基化之一。DNA N4-甲基胞嘧啶位点(4m C)不仅与哺乳动物的发育有关,而且与一些人类疾病的产生有着密切的联系。揭示DNA N4-甲基胞嘧啶位点(4m C)的生物学意义可以帮助我们更好的理解DNA甲基化并为疾
复杂网络中一些具有高度连接特性的节点更倾向于共享相同的属性,所以在复杂网络中,往往隐含着很多功能模块,这些功能模块称为社团,社团发现方法可以有效分析并探索社团结构,可以帮助人们更好地理解复杂系统的交互原理并预测他们的未来发展趋势。近年来,许多社团发现方法被不断提出,其中基于统计模型的方法由于其坚实的理论基础和优越的性能而得到了广泛的应用。随机块模型(Stochastic Block Model,S
眼动交互作为一种新兴的人机交互方式,具有广泛的应用前景,尤其是在虚拟现实领域,更是近年来的研究热点。眼动交互的前提是精准快速地注视点估计,本文对头戴式设备中的注视点估计方法进行了研究,搭建了一套头戴式眼动跟踪系统,并对文中的算法进行实际场景测试。注视点估计方法可以分为基于几何模型的注视点估计方法和基于外观的注视点估计方法。本文首先研究了基于几何模型的注视点估计方法,该方法在眼动特征与注视点之间建立
在卷积神经网络中,密集型的计算会使软件运行速度过慢,很难达到复杂应用的实时响应,因此针对卷积神经网络的硬件加速方案逐渐成为了主流。现有的卷积神经网络已被证明超过90%以上的计算是在卷积层完成的,而且传统卷积层的输入特征图与卷积核乘累加的计算会因加法树的存在而限制并行性,本身的浮点计算量也非常的巨大,严重影响了整个网络的计算时间。因此,针对卷积层的算法改进及硬件加速对整个卷积神经网络的运行效率和性能
视频超分辨率是计算机视觉领域的核心问题之一,主要目的是通过超分辨率方法将低分辨率帧(参考帧)和多个连续帧(相邻帧)恢复成高分辨率视频帧。它是计算机视觉和图像处理中的一个经典且具有挑战性的课题,该方法对于提升早期胶片视频整体的清晰度和像素质量有着重要的意义,其成果在多个领域,例如遥感视频,视频监控,图像医疗和数码摄像等方面有着重要的实用价值。与单图像超分辨率不同的是,视频超分辨率存在帧间的时序信息。
近些年来,随着无线通信技术快速发展,移动互联网向无线端迅速延伸。一方面,通信方式不断增加,覆盖范围持续扩展,业务多样性明显提升,给人们生活带来了显著变化。另一方面,随着社交网络、人工智能、大数据等信息产业的发展,数据信息量的大幅攀升,呈指数增长的人和机器需要实时构建信息网络,对无线网络的需求加速更新。新兴业务对通信服务质量和用户体验等要求的提升,使得传统通信技术难以满足信息量的现实需求。其中的核心
篇章关系识别(Discourse Relation Recognition)旨在理解两个相邻的篇章单元(称为论元)之间的语义连接关系,包括偶然关系、比较关系、扩展关系和时序关系等,其广泛应用于文本摘要、智能问答、机器翻译等自然语言处理领域中。与显式篇章关系不同,隐式篇章关系识别任务由于不能通过连接词直接识别篇章关系,需要结合特定的上下文特征对篇章进行理解,逐渐成为一项极具挑战性的研究任务。目前,隐