论文部分内容阅读
深度学习技术的发展,为各行各业带来了蓬勃的生机。特别是语音合成技术中,深度学习取得了巨大的成功。以Tacotron为首的端到端的语音合成技术使构建语音合成系统变得更加简单的同时,也使得合成的语音具有更高的可懂度和自然度。今天,语音已经逐渐的走入了我们的生活中。各种语音助手、语音交互功能方便着我们的生活。目前的语音合成技术依然存在瓶颈,还是停留在能发出人类听得懂的声音这个阶段,还无法实现情感的表达,无法像人一样进行生动的演说。这一点是目前制约着语音合成系统迈向更广泛应用的关键。于此同时,端到端的语音合成系统刚发展不久,有关情感的研究也才刚刚起步。这也是目前语音合成领域普遍研究的热点问题。
对抗生成网络自提出起便受到了广泛的关注,立刻在计算机视觉领域掀起了波澜。对抗生成网络有诸多的应用,包括生成以及乱真的照片、转换图片的风格等等。至今对抗生成网络依旧使生成模型最火热的研究方向之一。与对抗生成网路在计算机视觉领域的热门不同,鲜有人使用对抗生成网络进行语音的生成。
受到对抗生成网络在图像风格转换领域的成功的启发,本文将对抗生成网络与Tacotron2相结合,构建了一个全新的情感语音合成系统。该系统以文本和韵律特征作为输入,来合成具有情感的语音。情感语音合成系统主要包含语音合成和韵律提取两个模块。其中语音合成模块是一个Tacotron2模型。韵律提取模块从一段语音中提取韵律特征,作为Tacotron2的输入。本文通过传统的机器学习的方法对韵律特征进行了筛选,保证了提取到的韵律特征和情感具有较高的相关性以及特征之间具有较小的共线性。最后本文使用了条件对抗生成网络的思想对模型进行了训练。判别器负责对生成的语音的情感进行约束,生成器负责对声音进行拟合。最终得到了一个可以通过修改输入的韵律特征,来自由控制输出语音的情感的情感语音合成系统。
本文在可懂度和自然度两个方面对模型进行了评价。其中可懂度我们采用了语音识别系统的错词率和主观的MOS评分进行评价,结果显示本文的模型错词率和MOS评分远超过Tacotron2,并且与GSTTacotron2持平。在自然度方面我们采用了梅尔倒谱误差、基频误差对模型进行了评价,结果显示我们的模型在基频误差上比GSTTacotron2模型要低15%,在梅尔倒谱误差上与GSTTactron2持平,证明了本文提出的模型在自然度的表达上优于GSTTacotron2。
对抗生成网络自提出起便受到了广泛的关注,立刻在计算机视觉领域掀起了波澜。对抗生成网络有诸多的应用,包括生成以及乱真的照片、转换图片的风格等等。至今对抗生成网络依旧使生成模型最火热的研究方向之一。与对抗生成网路在计算机视觉领域的热门不同,鲜有人使用对抗生成网络进行语音的生成。
受到对抗生成网络在图像风格转换领域的成功的启发,本文将对抗生成网络与Tacotron2相结合,构建了一个全新的情感语音合成系统。该系统以文本和韵律特征作为输入,来合成具有情感的语音。情感语音合成系统主要包含语音合成和韵律提取两个模块。其中语音合成模块是一个Tacotron2模型。韵律提取模块从一段语音中提取韵律特征,作为Tacotron2的输入。本文通过传统的机器学习的方法对韵律特征进行了筛选,保证了提取到的韵律特征和情感具有较高的相关性以及特征之间具有较小的共线性。最后本文使用了条件对抗生成网络的思想对模型进行了训练。判别器负责对生成的语音的情感进行约束,生成器负责对声音进行拟合。最终得到了一个可以通过修改输入的韵律特征,来自由控制输出语音的情感的情感语音合成系统。
本文在可懂度和自然度两个方面对模型进行了评价。其中可懂度我们采用了语音识别系统的错词率和主观的MOS评分进行评价,结果显示本文的模型错词率和MOS评分远超过Tacotron2,并且与GSTTacotron2持平。在自然度方面我们采用了梅尔倒谱误差、基频误差对模型进行了评价,结果显示我们的模型在基频误差上比GSTTacotron2模型要低15%,在梅尔倒谱误差上与GSTTactron2持平,证明了本文提出的模型在自然度的表达上优于GSTTacotron2。