论文部分内容阅读
语音合成是实现人机和谐交互的关键问题之一。本文对汉语语音合成中的声学建模技术和参数共享策略进行了研究,并以日文galatea-Talk文语转换系统为基础,针对汉语的特点进行改造,完成了一个汉语文语转换的原型系统CN-galatea-Talk。具体工作包括:1.对HTK平台和HTS进行了研究和分析,实现了基于HTK平台的声学模型训练方法。2.以扩展声韵母集作为合成基元的集合,并引入了合成基元的环境信息,进行了上下文相关的声学建模。对声学建模中基于决策树的HMM状态共享策略进行了研究,分析了决策树的构造方法,讨论了问题集的设计。通过基于决策树的HMM状态共享,降低了模型的规模,状态数为状态共享前的2.84%。通过对状态时长HMM和基音周期HMM进行基于决策树的状态共享,并在问题集中引入合成基元的环境信息,从而使训练出的HMM带有韵律的信息。3.对日文galatea-Talk系统的语音合成部分进行了研究和分析,保留其中的参数生成模块和基于MLSA的合成器模块,针对中文的特性修改了HMM模型读取模块和HMM模型搜索模块。重新设计了galatea-Talk系统中的文本处理模块。利用《知网》来计算多音字的概念相似度,进行多音字处理,避开了现有实验条件下缺少拼音标注语料的问题。将上述工作组合起来,最终设计并完成了一个汉语的文语转换的原型系统CN-galatea-Talk。在语义不可预测句子(SUS)听写的测试中,平均词正确率达到89.5%;在对不同体裁短文朗读的测试中,主观评测中自然度MOS得分达到3.15;同时,合成部分的模型文件仅有2.2M。与另一款大小接近、应用双音素(Diphone)和PSOLA技术的文语转换系统相比,自然度明显提高。由于CN-galatea-Talk系统所需存储量很小,所以它很适用于移动终端或嵌入式应用。4