汉语嵌入式TTS系统中的韵律建模和语音合成方法

来源 :山东大学 | 被引量 : 0次 | 上传用户:p6688718
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和信息技术的飞速发展,如何使人机界面更加自然和友好成为相关机构的研究热点,其中,语音交互方式备受人们关注。语音交互中非常重要的一项技术就是语音合成,本文着重研究语音合成技术中的音库设计,韵律建模和合成算法。 语音合成在高配置机器(如大型机,工作站等)上的应用已经非常广泛,但是由于嵌入式系统的资源限制,基于大语料库的语音合成方法难以在嵌入式系统上实现。因此,如何平衡音库容量和合成音质之间的矛盾便成了问题的核心所在。本文根据汉语音节的特点,提出了一种嵌入式音库的设计算法。在对样本之间失真度的测量上采用了符合人耳感知特性的MFCC参数,测量最小失真度使用了动态规划(DP)技术来优化匹配过程。根据对汉语中有调音节的出现频率的分析,确定了音库的最终结构。选取音节作为基元,采用改进的k均值聚类算法(MKM算法)。同时考虑到基元的后续处理,增加了候选基元,从而优化了基元库质量。 在人们的交流过程中,韵律隐含着文字所不能表达的信息,因此在汉语语音合成系统中,韵律建模的作用相当重要。相对于概率模型和决策树模型来说,神经网络有着强大的非线性映射能力和自学习能力,因此,这里选用神经网络来训练韵律模型。网络的输入参数主要从文本中获得,同时为了表达不同含义的需要加入了重音及其相关信息。根据汉语音节的特点可以归纳出17个有用的参数,重音参数不能直接从文本中获得,因此参考相关资料,提出了调域系数(TRR)和音节时长组合的方法来检测,实验表明能降低漏检率和提高召回率。根据参数的重要性不同将参数划分为两组矢量,对重要性较高的矢量采用增加加权层来提高网络输出的精度,从而构成了三组输入矢量。神经网络的中间层采用了高斯径向基函数对输入矢量进行映射,高斯函数的中心为该子空间的质心,径向宽度参数为该子空间中所有样本与
其他文献
近年来我国航天事业迅速发展,对抗辐射集成电路的需求也在不断的增加。存储器作为集成电路的重要组成部分,在长期空间使用中很容易发生总剂量效应。SRAM不仅作为最基本的存储器
实验是科学研究的重要技术手段,实验教学是工程教育中必不可少的一部分。随着工程教育形式的丰富以及高等院校招生规模的不断扩大,常规的实验教学模式已经不能满足教学需求,