论文部分内容阅读
语音转换是一种将源语音中的说话人身份转换为目标说话人身份,同时保留源语音语义信息的技术。作为一门交叉性较强的学科,语音转换技术目前已经在文语转换、通信保密、多媒体应用、医疗辅助和语言翻译等方面得到了重要应用,并且在其他领域展现出了广泛的应用前景。目前语音转换模型主要存在两个问题:一方面是转换后语音的个性相似度不高,另一方面则是转换后语音的音质不够理想。本文重点研究了基于变分自编码器和生成对抗网络的语音转换模型,并且针对上述两个问题进行了相应的探讨与改进。首先,为了实现更好的说话人个性相似度的语音转换,本文将身份向量i-vector应用在基于变分自编码器和生成对抗网络的语音转换模型中,利用i-vector可以表征说话人个性特征的特性提升了转换后语音的个性相似度。经主观和客观评价表明,本文提出的方法比基于变分自编码器和生成对抗网络的方法转换后的语音的平均MCD值降低了3.22%,平均MOS值提升了2.63%,平均ABX值提升了7.35%,说明本文提出的方法在提升说话人个性相似度的同时也改善了语音音质。其次,为了实现更好音质的语音转换,本文利用生成性能更好的相对生成对抗网络改进了基于变分自编码器和生成对抗网络的语音转换模型,改善了Wasserstein生成对抗网络训练困难等问题,从而提升了语音的音质。经主观和客观评价表明,本文提出的方法比基于变分自编码器和生成对抗网络的方法转换后的语音的平均MCD值降低了4.36%,平均MOS提升了4.52%,平均ABX值提升了3.6%,说明本文提出的方法在提升语音音质的同时也改善了说话人个性相似度。此外,本文还将i-vector加入到上述方法中,经过主观和客观评价表明,该方法比基于变分自编码器和生成对抗网络的方法转换后的语音的平均MCD值降低了4.8%,平均MOS值提升了5.12%,平均ABX值提升了8.6%,说明该方法在语音音质和说话人个性相似度方面都有较大的提升。