【摘 要】
:
话者转换是一种语音生成技术,其目的是在保留文本内容的情况下,改变输入源话者语音的音色,使其听感接近目标话者。话者转换在个性化语音合成、有声读物制作、娱乐玩具、身份伪装语音通信等领域有着重要的应用价值。随着近些年机器学习的快速发展,使用深度学习进行统计建模逐渐成为实现话者转换的主流技术途径。这类话者转换方法一般由特征提取模块、声学特征预测模块、声码器等部分构成。特征提取模块通过声学分析,从语音波形中
论文部分内容阅读
话者转换是一种语音生成技术,其目的是在保留文本内容的情况下,改变输入源话者语音的音色,使其听感接近目标话者。话者转换在个性化语音合成、有声读物制作、娱乐玩具、身份伪装语音通信等领域有着重要的应用价值。随着近些年机器学习的快速发展,使用深度学习进行统计建模逐渐成为实现话者转换的主流技术途径。这类话者转换方法一般由特征提取模块、声学特征预测模块、声码器等部分构成。特征提取模块通过声学分析,从语音波形中提取合适的源话者声学特征;声学特征预测模块会根据输入的源话者特征预测目标话者的声学特征;预测结果最后通过声码器重构得到转换语音波形。话者转换通常使用生成语音的自然度和其与目标话者的相似度作为评价指标。对比有声读物、娱乐玩具等应用场景,身份伪装语音通信对话者转换技术提出了更高要求。首先,在身份伪装语音通信应用中往往难以获取大量源话者与目标话者具有相同文本内容的平行语音数据,这制约了传统依赖平行数据进行模型训练的话者转换方法的性能;其次,为了满足语音通信顺畅进行的应用需求,话者转换的处理过程需要在低延时内完成,这使得传统基于整句处理的话者转换方法不再适用;最后,当前伪造语音检测技术发展迅速,实现具有抗检测能力的话者转换技术将进一步提升该技术在语音通信身份伪装中的应用效果。因此,本文研究面向身份伪装语音通信应用的深度学习话者转换方法,针对以上应用需求开展研究工作,主要研究内容包括:首先,研究了基于二值分布隐层单元深度自编码器的深度神经网络话者转换方法。使用神经网络特征提取器从隐层特征中解码声学特征时,会出现解码得到的声学特征与真实目标话者声学特征差距较大,或解码声学特征过平滑的问题,导致转换语音质量的下降。因此本文提出二值分布隐层单元深度自编码器用于在生成式深度神经网络中作为特征提取模块,在从隐层表征中准确解码目标话者声学特征的同时缓解过平滑现象,提高了转换语音的自然度与相似度。其次,研究了基于少量平行数据的序列到序列话者转换方法。在序列到序列模型中,需要使用平行数据进行建模。而平行数据的获取难度较大,在平行数据量较小时,转换得到的语音质量会明显下降。因此,本文针对存在少量平行数据和较多非平行数据的情景,设计一种构造伪平行数据的训练方法,用于提升序列到序列模型在大量平行数据难以获取时的话者转换质量。再次,研究了低延时话者转换方法。已有的低延时话者转换研究使用深度神经网络模型预测声学特征,并通过传统源-滤波器声码器生成语音,转换得到的语音质量不高,且需要平行数据进行训练模型。因此,本文提出了一种基于逐帧预测与互信息最小化的低延时音素分类模型,来构建特征提取模块,在非平行数据条件下实现了低延时的话者转换,相对无低延迟要求的上限模型,保持了转换语音的自然度。最后,研究了基于对抗样本生成的抗检测话者转换方法。当前最新的基于神经网络的生成语音检测模型能够有效的检测出话者转换技术生成的语音。因此,本文提出采用对抗样本生成的思想,将合成语音的检测模型作为对抗模型,通过在原有话者转换流程基础上增加后处理模块,提升了转换语音的抗检测能力。
其他文献
生物质燃烧排放的有机气溶胶严重降低空气质量、破坏大气环境、危害人体健康,甚至威胁人类的生存。有机气溶胶包括一次有机气溶胶(POA)和二次有机气溶胶(SOA),能够通过吸收太阳辐射改变全球辐射平衡。有机气溶胶的吸光特性取决于其分子组成。因此,研究生物质燃烧有机气溶胶的吸光特性和分子组成对于评估生物质燃烧对大气辐射的影响具有重要意义。然而,生物质燃烧有机气溶胶的吸光特性和分子组成在大气过程中是动态演变
随着深度学习的迅猛发展,人工智能技术已融入人们日常生活的方方面面,拍照购物、刷脸支付、旧照新颜、智能换脸,人工智能所赋能的落地应用随处可见。这些应用背后一项重要的技术便是对于图像中物体的建模。物体是由部位组成的,因此,基于部位的图像建模是一种契合物体固有属性的,基础而重要的图像建模方式。然而,部位建模存在以下问题:部位信息的标注代价巨大,依赖部位标注的建模方式难以大规模拓展;无需标注的自动部位检测
构筑高色纯、广色域、高效率的发光显示器件是信息时代人们不懈追求的目标。金属卤素钙钛矿材料具有连续可调的发光范围、高的荧光效率、长的载流子扩散长度等出色的光电性能,已经成为构建下一代光电器件的有力竞争者。目前,绿光和红光钙钛矿发光二极管(PeLEDs)器件的外量子效率(EQE)已经超过20%。相较于钙钛矿薄膜型器件取得的显著进展,在显示像素、集成光电子学方面具有重要作用的阵列结构器件还处于较为初期的
纵观半导体在微电子领域的发展历史,带隙更宽的半导体材料逐渐备受青睐,而发展性能更为优异的半导体材料是必然选择。近年来,新型超宽禁带半导体材料Ga2O3由于其大尺寸单晶衬底的成功制备,获得了科研工作者们广泛的关注。不-Ga2O3的禁带宽度约为4.7-4.9 eV(对应截止吸收波长位于日盲紫外波段),具有高的抗辐射性能以及优异的化学和热稳定性,为日盲紫外探测器的优选材料,已经成为研究热点。然而,目前G
清洁、低碳、安全、高效的现代能源体系离不开高效的催化过程。近年来,电催化因为诸多优势在发展新型可再生能源和化石能源清洁、高效利用方面受到了广泛关注。实际上,在催化反应过程中,受到催化剂本身结构和外场环境的影响,电催化剂通常会发生复杂的结构动态演化过程。然而,常规的非原位表征技术难以给出电催化剂的真实服役状态,这给高效电催化剂的精准研发造成了极大的挑战。因此,深入掌握电催化剂结构动态演化规律,并以此
相比于不可再生的化石能源,太阳能被认为是一种有吸引力的可再生能源。由于其环保和免费的特性,太阳能具有广阔的应用前景,且仅需0.1%的太阳辐射到达地球就可以满足人类社会的能源需求。然而,由于制造电池过程中的材料消耗,利用太阳能发电成本很高。因此,研究人员们探索了很多替代的材料和方法来降低成本。其中金属氧化物半导体具有成本低、数量多、稳定性好和易生产的优点,常被用于替代传统的用于太阳能转换的昂贵半导体
量子信息中发展最为成熟的研究方向非量子密钥分发莫属。而作为量子密钥分发的分支,连续变量的量子密钥分发也因其特有的优势而受到广泛关注。连续变量量子密钥分发因使用相干探测而非单光子探测所以能够使用经典光通信器件来实现。而相干探测中本振光的选择滤波作用,使得连续变量量子密钥分发相比离散变量的量子密钥分发更容易和经典光通信网络进行融合。基于高斯调制的相干态的连续变量量子密钥分发协议的安全性已经得到了比较完
量子非局域性理论和量子纠缠理论是量子力学中非常重要的理论,也是量子保密通信的基础理论。量子非局域性可以用于量子数据隐藏和量子秘密共享,而多体纠缠在量子密钥分发、量子隐形传态和量子纠错码中扮演着核心的角色。因此关于量子非局域性和多体纠缠的理论研究不仅对量子力学的发展添砖加瓦,同时也促进量子保密通信的发展。本文具体研究与量子非局域性相关的不可扩充乘积基和强量子非局域性,以及与多体纠缠相关的k-均匀态和
随着世界数字化进程的持续推进,以及计算机和三维数据采集仪器等设备的不断升级,大量的三维数字模型通过想象设计和真实物体重建两种方式中生产出来。然而,绝大部分三维几何模型需要进一步处理才能应用于下游产业。其中,将几何模型转化为多边形网格,即网格生成,对于科学研究、制造业、数字文化产业等领域是至关重要的一步。在网格生成技术中,初始生成网格的质量一般比较低,并不适用于后续应用。为了适应与不同应用的需求,往