非平行文本条件下基于i-vector、VAE和GAN的多对多语音转换算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:cailing12530
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换是一种将源语音中的说话人身份转换为目标说话人身份,同时保留源语音语义信息的技术。作为一门交叉性较强的学科,语音转换技术目前已经在文语转换、通信保密、多媒体应用、医疗辅助和语言翻译等方面得到了重要应用,并且在其他领域展现出了广泛的应用前景。目前语音转换模型主要存在两个问题:一方面是转换后语音的个性相似度不高,另一方面则是转换后语音的音质不够理想。本文重点研究了基于变分自编码器和生成对抗网络的语音转换模型,并且针对上述两个问题进行了相应的探讨与改进。首先,为了实现更好的说话人个性相似度的语音转换,本文将身份向量i-vector应用在基于变分自编码器和生成对抗网络的语音转换模型中,利用i-vector可以表征说话人个性特征的特性提升了转换后语音的个性相似度。经主观和客观评价表明,本文提出的方法比基于变分自编码器和生成对抗网络的方法转换后的语音的平均MCD值降低了3.22%,平均MOS值提升了2.63%,平均ABX值提升了7.35%,说明本文提出的方法在提升说话人个性相似度的同时也改善了语音音质。其次,为了实现更好音质的语音转换,本文利用生成性能更好的相对生成对抗网络改进了基于变分自编码器和生成对抗网络的语音转换模型,改善了Wasserstein生成对抗网络训练困难等问题,从而提升了语音的音质。经主观和客观评价表明,本文提出的方法比基于变分自编码器和生成对抗网络的方法转换后的语音的平均MCD值降低了4.36%,平均MOS提升了4.52%,平均ABX值提升了3.6%,说明本文提出的方法在提升语音音质的同时也改善了说话人个性相似度。此外,本文还将i-vector加入到上述方法中,经过主观和客观评价表明,该方法比基于变分自编码器和生成对抗网络的方法转换后的语音的平均MCD值降低了4.8%,平均MOS值提升了5.12%,平均ABX值提升了8.6%,说明该方法在语音音质和说话人个性相似度方面都有较大的提升。
其他文献
寒冷的冬季里,些许的芬芳也许会激起你的热情,让你感觉到温暖。小编在这里给大家推荐了几款冬季比较适用的香水,它们浓郁、火热,能使男士的胸怀、女性的妩媚尽情地释放。你还等什么?赶快去感受它们的拥抱吧。    男士  Gucci Envy关键字:性感  瓶身设计表现出古奇一贯的大都会风格,整体简洁而利落,大方流畅又简单完美。香柠味的初调与苔味的基调,混合而成独特的西普香薰(CHYPRES)气息。古奇这款
第一部分应用二代测序技术及功能预测工具对系统性红斑狼疮合并股骨头坏死相关易感基因的研究分析研究背景既往研究显示遗传相关的基因易感性在系统性红斑狼疮(systemic lupu
当北京三环以内的房屋均价已经达到15000元/平方米时,“集采”、“团购”这样的词汇在家居建材市场上的出现频率也开始空前地高。网络则成为“聚众”最主要的平台,在这个基础上,
客观地说,ERP最近一年来在中小企业中的实施成功率提高了很多,这个现象确实值得众多为ERP实施付出过心血的人感到欢欣鼓舞。在ERP低谷的阶段,甚至曾有人高喊“ERP实施成功率为零”,一句话吓得多少企业领导视ERP为洪水猛兽,好像一旦粘上必死无疑。因此在那个时期,出现了一种奇怪的现象:一方面厂商滔滔不绝地介绍软件的优异功能——各种资料满天飞,一方面企业实施失败的案例比比皆是——网上到处是企业和软件厂