基于HMM的中文语音合成研究

被引量 : 20次 | 上传用户:cheerlucky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成是实现人机和谐交互的关键问题之一。本文对汉语语音合成中的声学建模技术和参数共享策略进行了研究,并以日文galatea-Talk文语转换系统为基础,针对汉语的特点进行改造,完成了一个汉语文语转换的原型系统CN-galatea-Talk。具体工作包括:1.对HTK平台和HTS进行了研究和分析,实现了基于HTK平台的声学模型训练方法。2.以扩展声韵母集作为合成基元的集合,并引入了合成基元的环境信息,进行了上下文相关的声学建模。对声学建模中基于决策树的HMM状态共享策略进行了研究,分析了决策树的构造方法,讨论了问题集的设计。通过基于决策树的HMM状态共享,降低了模型的规模,状态数为状态共享前的2.84%。通过对状态时长HMM和基音周期HMM进行基于决策树的状态共享,并在问题集中引入合成基元的环境信息,从而使训练出的HMM带有韵律的信息。3.对日文galatea-Talk系统的语音合成部分进行了研究和分析,保留其中的参数生成模块和基于MLSA的合成器模块,针对中文的特性修改了HMM模型读取模块和HMM模型搜索模块。重新设计了galatea-Talk系统中的文本处理模块。利用《知网》来计算多音字的概念相似度,进行多音字处理,避开了现有实验条件下缺少拼音标注语料的问题。将上述工作组合起来,最终设计并完成了一个汉语的文语转换的原型系统CN-galatea-Talk。在语义不可预测句子(SUS)听写的测试中,平均词正确率达到89.5%;在对不同体裁短文朗读的测试中,主观评测中自然度MOS得分达到3.15;同时,合成部分的模型文件仅有2.2M。与另一款大小接近、应用双音素(Diphone)和PSOLA技术的文语转换系统相比,自然度明显提高。由于CN-galatea-Talk系统所需存储量很小,所以它很适用于移动终端或嵌入式应用。4
其他文献
在竞争越来越激烈的环境中,人才越来越成为企业成功的关键因素。为了吸引到优秀的人才,每个企业都使出了浑身的解数,各出胜招。提高福利、强调培训、提供发展机遇、期权制度等各
杨绛是一个有着无限解读空间的知识分子。透过她不张扬的外表,我们可以解读到一个现代知识分子睿智的"隐身"哲学。杨绛的"隐身"哲学具有等于"卑微",重视修身养性的内涵;杨降
旅游业是我国的支柱产业,也是对外开放较早的行业。我国旅游业在利用外资方面已经取得不俗的成绩。截至2002年底,我国旅游业利用外资超过500亿美元。外资进入旅游业,一方面为旅
随着我国市场经济体制的建立和完善,激烈的市场竞争和强大的技术变革使得营销渠道变得愈加重要,越来越多的企业正逐渐意识到营销渠道的重要性,并且将营销渠道管理提升到竞争战略
合并财务报表是会计界研究的难点之一,而合并范围的界定是合并财务报表的前提,在很大程度上决定了报表中数据的相关性和可靠性。科学合理的确定合并范围,将会减少企业操纵利润的
市场经济的正常、有序运转,需要高质量的会计信息为前提和基础。作为高质量会计信息的合理保证者,审计人员需要具备比较强的职业判断能力。职业判断是审计的精髓,判断能力的高低
由于与佛教的深厚渊源,英国当代著名小说家默多克的道德哲学观中蕴含了浓郁的佛教色彩并通过作品将其展现出来。在作品《大海啊,大海》中,默多克将佛教思想与道德哲学观完美
昆曲的问世,是我国戏曲文化在漫长的历史过程中不断继承和发展的必然结果,尤其宋元以降,散曲、南戏以及南北声腔日趋成熟繁荣,更兼入明以后,苏州城市经济起飞,苏州本身深厚的
无论是学历教育还是继续教育,实验教学在对学生的实践能力和创新能力的培养方面有着理论教学无法替代的重要作用。传统的"照方抓药"式的"验证性"实验教学方法会限制学生主动
时下,为小区进行多媒体视频点播服务已非常流行。本文就以小区多媒体信息系统后台运营管理业务为背景,详细介绍了运营管理中用户管理子系统的总体业务,系统框架,以及整个系统的设