汉语嵌入式TTS系统中的韵律建模和语音合成方法

论文部分内容阅读

随着计算机技术和信息技术的飞速发展，如何使人机界面更加自然和友好成为相关机构的研究热点，其中，语音交互方式备受人们关注。语音交互中非常重要的一项技术就是语音合成，本文着重研究语音合成技术中的音库设计，韵律建模和合成算法。语音合成在高配置机器(如大型机，工作站等)上的应用已经非常广泛，但是由于嵌入式系统的资源限制，基于大语料库的语音合成方法难以在嵌入式系统上实现。因此，如何平衡音库容量和合成音质之间的矛盾便成了问题的核心所在。本文根据汉语音节的特点，提出了一种嵌入式音库的设计算法。在对样本之间失真度的测量上采用了符合人耳感知特性的MFCC参数，测量最小失真度使用了动态规划(DP)技术来优化匹配过程。根据对汉语中有调音节的出现频率的分析，确定了音库的最终结构。选取音节作为基元，采用改进的k均值聚类算法(MKM算法)。同时考虑到基元的后续处理，增加了候选基元，从而优化了基元库质量。在人们的交流过程中，韵律隐含着文字所不能表达的信息，因此在汉语语音合成系统中，韵律建模的作用相当重要。相对于概率模型和决策树模型来说，神经网络有着强大的非线性映射能力和自学习能力，因此，这里选用神经网络来训练韵律模型。网络的输入参数主要从文本中获得，同时为了表达不同含义的需要加入了重音及其相关信息。根据汉语音节的特点可以归纳出17个有用的参数，重音参数不能直接从文本中获得，因此参考相关资料，提出了调域系数(TRR)和音节时长组合的方法来检测，实验表明能降低漏检率和提高召回率。根据参数的重要性不同将参数划分为两组矢量，对重要性较高的矢量采用增加加权层来提高网络输出的精度，从而构成了三组输入矢量。神经网络的中间层采用了高斯径向基函数对输入矢量进行映射，高斯函数的中心为该子空间的质心，径向宽度参数为该子空间中所有样本与

其他学术论文