基于PSR-STARGAN的非平行多对多语音转换方法

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:huangwily
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换是一项在保持语义信息的同时转换说话人个性特征的任务,使转换后语音与源语音具有相同的语义信息并且与目标语音具有相同的说话人个性特征。传统的语音转换方法需要平行语音数据来训练转换模型,但在实际场景中很难获取平行数据。为突破该限制,众多非平行语音转换方法被提出,其中基于生成对抗网络的方法成为当前的主流,但是仍然存在转换后语音自然度较低和相似度较差的问题。本文重点研究基于星型生成对抗网络的语音转换模型,并对模型的整体结构进行分析并提出一系列改进。首先,为了改善转换后语音的质量,本文提出基于可切换标准化和残差网络的生成对抗网络的语音转换方法,一方面利用ResNet可解决深度神经网络退化问题的特点,将ResNet应用于基于星型生成对抗网络的语音转换模型中,通过在生成器的编码和解码阶段建立残差网络来降低模型学习难度,从而改善转换后语音的质量,另一方面基于星型生成对抗网络的语音转换模型指定将批标准化作为整个转换模型的数据标准化方式,该操作可能会造成模型性能的下降,因此本文提出在模型中使用可切换标准化代替原有的批标准化来对神经网络中每层的数据进行标准化处理,在训练过程中为神经网络的不同网络层自动选择不同的标准化方法及其组合形式,从而使模型获得最优性能。经主观和客观评价表明,本文提出的方法比基于STARGAN的语音转换方法转换后的语音的平均MCD值降低了6.96%,平均MOS值提升了9.34%,平均ABX值提升了5.48%,说明本文提出的方法在提升说话人个性相似度的同时也改善了语音音质。进一步在上述改进模型的基础上,本文提出基于感知网络、可切换标准化和残差网络的生成对抗网络的语音转换方法,为了有效地保留频谱细节,改善转换后语音的自然度和相似度,利用感知网络来衡量转换后语音频谱在高维上与源和目标语音频谱之间差异的感知损失,从而改善模型的转换效果,提升模型对频谱细节的复现能力,使转换后语音频谱的自然度更好。经主观和客观评价表明,本文提出的方法比基于STARGAN的语音转换方法转换后的语音的平均MCD值降低了9.36%,平均MOS提升了19.29%,平均ABX值提升了6.32%,说明本文提出的方法极大地提升语音音质,同时也改善了说话人个性相似度。
其他文献
摩托车发动机的噪声会影响使用者的骑乘舒适感,也会给周遭环境带来噪声污染,因此降低噪声对于摩托车的整体使用性很有必要。国家针对摩托车的性能要求出台了详细的法律法规,
目的探讨艾灸督脉组穴温灸配合循经走罐治疗支气管哮喘急性发作期患者失眠的效果。方法选取2017年1月—2018年11月收治的支气管哮喘急性发作期出现失眠的患者104例,按照随机
本文采用中国制造业上市公司2013-2017年面板数据,实证分析创新型人力资本与企业绩效的关系以及研发投入对两者关系的中介作用。结果表明,创新型人力资本与企业绩效呈正向相
随着我国人口老龄化进程的加快,由此带来的社会问题的愈发显著,政府采取了多种措施以应对人口老龄化的挑战,发展老年教育事业就是其中一项。从1983年我国第一所老年大学成立