基于声道参数建模和变换的语音转换技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:liongliong581
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换技术是语音信号处理领域近年来新兴的研究分支,自从被提出以来就体现出强大的生命力,具有广泛的应用前景(例如多语种翻译、多媒体娱乐等等)。语音转换的总体目标是:在保持语义内容和情感信息不变的情况下,通过改变一个源说话人的话音个性特征,使他(或她)说的话被听者认为是另一个目标人说的话。简而言之,语音转换的主要任务包括提取源和目标说话人的特征参数并确定它们之间的映射关系,然后将这种映射关系应用到新的源语音上,让其变得听起来就像是目标人发出的声音。在这一过程中,既要保持重构语音的听觉质量,又要兼顾转换后的目标人个性特征是否准确。   本论文以说话人识别和语音合成技术为背景,着重研究特定说话人语音转换系统中关于说话人声道谱参数的建模方法和参数映射等问题,并在此基础上进一步探讨现实环境中当训练语音数据稀少时,仍能保证语音转换系统稳定有效工作的方法。具体来说,论文主要工作和创新如下:   (1)针对经典语音转换系统存在的“转换后的声道谱参数过于平滑”的缺点(即“帧内缺陷”),①提出用最大似然准则代替最小均方误差准则来估计转换函数的参数,将统计模型的协方差信息考虑进来并和均值一起进行建模。②提出用残差码书补偿的方法来克服高斯混合模型加权带来的平滑效应。③在分析了线性谱频率参数特性的基础上,提出将其分成一小段一小段分别建模和转换的思想。主观和客观实验测试结果表明:改进算法使经典语音转换系统得到了增强,既提高了转换后的语音与目标说话人个性的相似程度,又改善了合成语音的音质。   (2)针对经典语音转换系统对连续的语音帧“孤立”建模和转换的缺陷(即“帧间缺陷”),提出了利用状态空间模型代替传统的高斯混合模型,进而映射声道谱参数的算法。首先,本论文提出将状态空间模型引入语音转换领域,并利用其特点来解决经典系统存在的问题,这一想法在本领域尚属首创(目前本领域用来对声道谱参数建模的模型主要为高斯混合模型和隐马尔可夫模型)。其次,论文在分析了状态空间模型的数学性质和模型特征的基础上,结合特定的场景赋予其模型参数一定的物理意义。再次,论文设计了一套全新的、基于状态空间模型的声道谱参数训练和转换算法。最后,相关实验证明:基于状态空间模型的语音转换系统,无论是在参数动态特性的跟踪方面,还是在声道谱参数的转换方面,都取得了良好的效果。此外,主观听觉测试分亦比较理想,均优越于同等条件下的经典系统的性能。   (3)现实条件下,目标人的语音数据往往收集的不完全或收集到的很少,即训练数据量稀少。在这种情况下,原本在实验室环境能正常稳定工作的语音转换系统就会出现这样那样的问题,导致转换结果不佳甚至系统崩溃、无法运行等后果。针对这一问题,本论文提出了应用变分贝叶斯理论来分析模型,并得到模型参数的“全局估计”值,进而实现语音声道谱参数转换的方法。值得一提的是,在目前的语音转换领域中还尚未出现研究此类问题的学术见解。主观和客观实验结果表明:将基于变分贝叶斯理论估计得到的统计模型用于语音声道谱参数的转换,提高了稀少数据环境下语音转换系统的鲁棒性,使语音转换技术变得更实用了。
其他文献
随着商业的发展,商家对投放广告所产生的效果越来越重视,广告效果评估与智能播放是两个重要的研究内容。本文设计了一套智能广告播放与效果评估系统,通过采集广告受众的人脸
数字集群系统提供安全、可靠以及高速的语音和数据通信,在全世界取得了迅猛发展。目前,国外数字集群通信技术相对来说已较成熟,但是价格昂贵,安全性和保密性不足,而国内数字
采样是将模拟信号进行数字化转变的一种方式,在传统奈奎斯特采样过程中,为避免信号失真,采样频率不低于信号最高频率的2倍。然而随着科学技术的不断进步,人们所需要处理的数
随着嵌入式技术的迅速发展,嵌入式系统已经广泛地应用于人类生活的各个方面。社会对嵌入式人才的需求也不断增加,很多高校已经开设了嵌入式应用技术课程。由于该学科具有很强
本论文针对交替方向隐格式时域有限差分方法(Alternating Direction Implicit Finite Difference Time Domain method,简称ADI-FDTD方法)和弱条件稳定时域有限差分方法(Weakl
随着数字集群通信系统在我国应用的增加,开发具有自主知识产权的数字集群通信系统无论在经济角度上还是在安全角度上都意义重大。广播控制功能是数字集群通信系统的重要功能
伴随着互联网和移动通信技术的飞速发展,社交网络平台吸引了大量的活跃用户,用户间的社会关系形成了错综复杂的网络图。如何挖掘网络图中的潜在信息已经成为当下研究的一个热
在计算机图形学、计算机视觉等研究领域中,对各种三维场景的建模一直是国内外学者关注的热点,也是极具价值的研究课题。随着计算机仿真和虚拟现实等科学技术的持续快速发展,室内
受激布里渊散射(Stimulated Brillouin Scattering)所需泵浦光功率远小于受激拉曼散射(SRS),是光纤中效率最高的非线性现象。SBS过程可以经典地描述为泵浦波,斯托克斯波与声波
Turbo码是一种性能优异的信道编码,在AWGN信道中可以取得接近Shannon极限的译码性能,适用于对功率要求较高的场合,因此被众多的通信标准采纳为信道编码方案,如3G系统和LTE系