论文部分内容阅读
聋儿康复训练系统主要是将受训者所发语音进行处理后提取出语音的特征,然后再进行语音的识别训练,让受训者将自己的发音和标准音的特征参数进行比较,逐步纠正自己的发音。语音识别是该系统的核心技术。本文主要论述了该系统的语音识别原理,包括语音的预处理和端点检测,特征参数的提取,包括基音频率,LPCC参数和MFCC参数,隐马尔科夫识别原理,最后用HTK工具包进行了语音识别的实验。在语音的预处理阶段,主要论述了语音去噪和端点检测。在去噪方面,我们提出一种新的阈值设定的小波去噪的方法,这种阈值参数介于软阈值和硬阈值之间,具有良好的连续性和可导性,可以更加有效的抑制高斯噪声。在端点检测方面,我们对传统的双门限方法进行了改进,通过对受训语音设定三个端点值包括音节起始端、浊音段起始端及音节结束端三个端点,然后应用时域特征参数即可准确检测出语音的端点。在语音的共性特征参数提取方面是本系统的关键所在,首先我们对语音的基音频率进行了提取,在提取方法上对传统的平均幅度差方法(AMDF)法进行了改进,对语音幅度值进行差值平方,然后进行归一化,再对提取的语音基音频率进行搜索试探和中值平均的方法进行后处理,有效地抑制了孤立点的存在,提高了精确度。然后详细介绍了LPCC和MFCC参数的特点及提取方法,以及两者各自的优缺点。隐马尔科夫模型是用统计原理建立语音识别的声学模型,是目前语音识别的主流声学建模技术,本文随后介绍了隐马尔科夫模型的原理及其在语音识别中的应用。最后在HTK平台上进行了特定人连续语音识别的实验,详细阐述了实验步骤和命令语句。引入了基于上下文相关的三音素模型,解决了协同发音的问题。使用了HTK的决策树理论,通过绑定三音素,修补哑音等方法,不断地调整系统模型,使实验的识别率最大化;通过提取多种语音特征参数并对其进行了对比试验以比较不同特征参数的识别结果;通过试验不同的HMM模型的状态数对不同识别率的影响,确定出最优的模型的状态数。