论文部分内容阅读
语言合成是用人工的方式产生人类语音从而赋予计算机如人一般自如说话的能力,目前的语音合成研究大多集中在文语转换(Text-To-Speech, TTS)这一阶段,即将一般语言的文字转换为语音。这些年来,随着语音技术的飞速发展,语音合成技术越加趋于成熟,合成的语音在音质和自然度上都有了明显的提高。然而,如何进一步提高语音合成系统的性能,使计算机合成出的声音更加的清晰与自然一直是语音合成研究领域的焦点问题。此外,随着国际交流的日益频繁,在国际交往中只用单一语种进行沟通往往已经不能满足人们的需求,有着对跨语种语音合成系统的迫切需要。在缺乏目标语种数据的情况下如何完成跨语种的说话人自适应,进而实现跨语种的语音合成系统以方便人们的国际交流与沟通,正是本文研究工作的重心所在。以下是论文的结构组织顺序:论文第一章简略地叙述了本文的研究背景。首先介绍了跨语种语音合成技术的技术需求与应用背景,接着介绍了现有的几种主流语音合成方法,最后对本文的主要研究方向——基于HMM模型的跨语种语音合成技术相关的概念与方法进行了大致的说明。论文第二章的前半部分主要是在介绍目前最为常用的基于HMM模型的可训练语音合成技术(Trainable TTS)的基本框架流程和关键技术点,后半部分则详细描述了这种语音合成系统基础上的同语种说话人模型自适应技术框架及相关算法。这两方面内容是本文研究工作的基础所在,也是后续章节研究内容的基本出发点。论文第三章介绍了对第二章中系统的改进工作。这里从参数语音合成系统中与语种最为相关的模块——基于决策树的模型聚类入手,着力研究如何改善现有基线系统的合成效果。研究中分别考查了决策树构建中挑选分裂问题的不同指导准则、判断分裂停止的不同条件准则及它们的不同组合对最终聚类效果和合成语音的影响。论文第四章主要从音素映射的思路出发来实现中英文跨语种的语音合成模型自适应。在跨语种的说话人模型自适应中,针对简单的音素映射效果不佳的问题,结合自适应数据的挑选,修正并改进了中英文音素映射表,同时通过中英文间的调型映射和韵律映射等方法以充分利用中英文语种间的相通韵律信息,取得了较好的自适应效果。论文第五章在前面研究工作的基础上,实现了一个中英文跨语种的语音合成系统,系统可以同时模拟任一中文说话人的中文发音和英文发音效果,即使在此中文说话人并不会说英文的前提下,也能很好地合成出具有其音色特征的英文发音语句。