论文部分内容阅读
语音转换是一项在保持语义信息的同时转换说话人个性特征的任务,使转换后语音与源语音具有相同的语义信息并且与目标语音具有相同的说话人个性特征。传统的语音转换方法需要平行语音数据来训练转换模型,但在实际场景中很难获取平行数据。为突破该限制,众多非平行语音转换方法被提出,其中基于生成对抗网络的方法成为当前的主流,但是仍然存在转换后语音自然度较低和相似度较差的问题。本文重点研究基于星型生成对抗网络的语音转换模型,并对模型的整体结构进行分析并提出一系列改进。首先,为了改善转换后语音的质量,本文提出基于可切换标准化和残差网络的生成对抗网络的语音转换方法,一方面利用ResNet可解决深度神经网络退化问题的特点,将ResNet应用于基于星型生成对抗网络的语音转换模型中,通过在生成器的编码和解码阶段建立残差网络来降低模型学习难度,从而改善转换后语音的质量,另一方面基于星型生成对抗网络的语音转换模型指定将批标准化作为整个转换模型的数据标准化方式,该操作可能会造成模型性能的下降,因此本文提出在模型中使用可切换标准化代替原有的批标准化来对神经网络中每层的数据进行标准化处理,在训练过程中为神经网络的不同网络层自动选择不同的标准化方法及其组合形式,从而使模型获得最优性能。经主观和客观评价表明,本文提出的方法比基于STARGAN的语音转换方法转换后的语音的平均MCD值降低了6.96%,平均MOS值提升了9.34%,平均ABX值提升了5.48%,说明本文提出的方法在提升说话人个性相似度的同时也改善了语音音质。进一步在上述改进模型的基础上,本文提出基于感知网络、可切换标准化和残差网络的生成对抗网络的语音转换方法,为了有效地保留频谱细节,改善转换后语音的自然度和相似度,利用感知网络来衡量转换后语音频谱在高维上与源和目标语音频谱之间差异的感知损失,从而改善模型的转换效果,提升模型对频谱细节的复现能力,使转换后语音频谱的自然度更好。经主观和客观评价表明,本文提出的方法比基于STARGAN的语音转换方法转换后的语音的平均MCD值降低了9.36%,平均MOS提升了19.29%,平均ABX值提升了6.32%,说明本文提出的方法极大地提升语音音质,同时也改善了说话人个性相似度。