论文部分内容阅读
近年来人工语音合成系统追求的主要思想是在神经心理学及神经解剖学的层次上仿真和描述大脑中涉及语音生成和理解区域的相关功能。围绕这一主题,研究者在语音获取与生成计算模型的探索和研究方面都做出了巨大的努力,并且获得了丰硕的成果。其中最具代表性和开创性的是波士顿大学语音实验室的冈瑟教授(Frank H. Guenther)及其团队开发的DIVA(Directions Into Velocities of Articulators)模型。在目前真正具有生物物理学意义的语音生成与感知的模型中,DIVA模型的定义和测试是最彻底的,而且它还是唯一一种应用伪逆控制方案的自适应神经网络模型。DIVA(Directions Into of Articulators)模型是一种自适应神经网络模型,可以描述语音获取与生成过程中的相关的处理过程,并可以通过控制模拟声道来生成音素、音节或单词。DIVA模型所依赖的语言背景是英文发音的29个音素。本文以汉语中a、o、e、i、u、ü6个单元音为实验载体,探讨DIVA模型处理汉语发音机制的可能性,进而为使其能处理包括辅音在内的全部汉语音素奠定良好的基础,最终达到在DIVA模型的基础上构建具有汉语脑机制反应体系的语音识别合成系统、将中国人大脑中的思维过程“阅读”出来的目的。本文首先对DIVA模型进行了介绍,然后从理论上探讨了DIVA模型处理汉语音素的基本方法以及与处理英文音素的异同点,最后对汉语元音的发音进行了仿真实验。从实验结果来看,修改了发音依赖背景后,DIVA模型能够正确生成汉语元音的发音,且发音效果良好。本文进行的仿真实验为以后大词汇量汉语连续语音识别(LVCSR)系统的建立提供了良好的实验基础。本文还基于DIVA模型的前馈、反馈控制机制,探讨了口吃的成因。并利用DIVA模型仿真口吃发音的过程。本文所做的研究在提高DIVA模型的实用性和可靠性,在促进神经心理学及神经解剖学的发展、医疗设备的研发等方面都具有积极的意义。