论文部分内容阅读
语音转换技术是语音信号处理领域近年来新兴的研究分支,自从被提出以来就体现出强大的生命力,具有广泛的应用前景(例如多语种翻译、多媒体娱乐等等)。语音转换的总体目标是:在保持语义内容和情感信息不变的情况下,通过改变一个源说话人的话音个性特征,使他(或她)说的话被听者认为是另一个目标人说的话。简而言之,语音转换的主要任务包括提取源和目标说话人的特征参数并确定它们之间的映射关系,然后将这种映射关系应用到新的源语音上,让其变得听起来就像是目标人发出的声音。在这一过程中,既要保持重构语音的听觉质量,又要兼顾转换后的目标人个性特征是否准确。
本论文以说话人识别和语音合成技术为背景,着重研究特定说话人语音转换系统中关于说话人声道谱参数的建模方法和参数映射等问题,并在此基础上进一步探讨现实环境中当训练语音数据稀少时,仍能保证语音转换系统稳定有效工作的方法。具体来说,论文主要工作和创新如下:
(1)针对经典语音转换系统存在的“转换后的声道谱参数过于平滑”的缺点(即“帧内缺陷”),①提出用最大似然准则代替最小均方误差准则来估计转换函数的参数,将统计模型的协方差信息考虑进来并和均值一起进行建模。②提出用残差码书补偿的方法来克服高斯混合模型加权带来的平滑效应。③在分析了线性谱频率参数特性的基础上,提出将其分成一小段一小段分别建模和转换的思想。主观和客观实验测试结果表明:改进算法使经典语音转换系统得到了增强,既提高了转换后的语音与目标说话人个性的相似程度,又改善了合成语音的音质。
(2)针对经典语音转换系统对连续的语音帧“孤立”建模和转换的缺陷(即“帧间缺陷”),提出了利用状态空间模型代替传统的高斯混合模型,进而映射声道谱参数的算法。首先,本论文提出将状态空间模型引入语音转换领域,并利用其特点来解决经典系统存在的问题,这一想法在本领域尚属首创(目前本领域用来对声道谱参数建模的模型主要为高斯混合模型和隐马尔可夫模型)。其次,论文在分析了状态空间模型的数学性质和模型特征的基础上,结合特定的场景赋予其模型参数一定的物理意义。再次,论文设计了一套全新的、基于状态空间模型的声道谱参数训练和转换算法。最后,相关实验证明:基于状态空间模型的语音转换系统,无论是在参数动态特性的跟踪方面,还是在声道谱参数的转换方面,都取得了良好的效果。此外,主观听觉测试分亦比较理想,均优越于同等条件下的经典系统的性能。
(3)现实条件下,目标人的语音数据往往收集的不完全或收集到的很少,即训练数据量稀少。在这种情况下,原本在实验室环境能正常稳定工作的语音转换系统就会出现这样那样的问题,导致转换结果不佳甚至系统崩溃、无法运行等后果。针对这一问题,本论文提出了应用变分贝叶斯理论来分析模型,并得到模型参数的“全局估计”值,进而实现语音声道谱参数转换的方法。值得一提的是,在目前的语音转换领域中还尚未出现研究此类问题的学术见解。主观和客观实验结果表明:将基于变分贝叶斯理论估计得到的统计模型用于语音声道谱参数的转换,提高了稀少数据环境下语音转换系统的鲁棒性,使语音转换技术变得更实用了。