论文部分内容阅读
近年来,在非特定人的连续词语音识别技术方面取得了很大进步,人工智能和机器学习已经成为一个非常热门的研究领域。语音识别虽然在理论上的研究已经取得了比较大的进展,但是在实际应用中仍然有很多难点。其中主要包括:第一,在实际应用开发过程中,语音训练样本数量往往比较有限,这将导致模型的参数训练不够充分,从而影响语音识别率。第二,由于环境中往往存在各种噪声,而噪声会对识别结果造成比较大的影响。本文针对以上难点提出了相应的解决方案。针对第一个难点引入了子空间高斯混合模型(SGMM),针对第二个难点引入了隐马尔可夫(HMM)和人工神经网络(ANN)的混合模型。论文的主要研究内容包括如下:(1)论文介绍了语音识别的基本技术原理,主要包括预加重、加窗分帧和端点检测。针对传统双门限端点检测算法在噪声环境下检测的不足,本文提出了改进的端点检测算法,端点检测的准确率得到了约7%的提高。(2)论文介绍了特征提取中的线性预测系数(LPC)、线性预测倒谱系数(LPCC)和梅尔频率倒谱系数(MFCC)。对LPCC和MFCC做了对比分析,选择了更符合人耳听觉特性的MFCC作为语音识别的特征提取参数。(3)在语音识别的实际应用中,针对语音训练样本数据比较有限导致模型参数训练不够充分的情况,本文引入了SGMM模型,并对HMM+SGMM模型的原理进行了详细的介绍和分析。(4)论文首先针对不同数据量的训练样本对HMM模型和HMM+SGMM模型分别进行了测试,然后对HMM+SGMM模型在噪声环境下进行了测试。实验结果表明:在语音训练样本有限的情况下,引入子空间高斯混合模型是一种有效的模型优化手段;在噪声环境下HMM+SGMM模型仍然具有较好的识别效果;改进的端点检测算法对HMM+SGMM模型仍然适用。(5)针对HMM通常只在无噪声语音环境下具有比较好的识别效果,噪声环境下的语音识别率却较低。论文引入了HMM+ANN混合模型,并对HMM和HMM+ANN模型在信噪比为5-35dB的环境下做了实验测试,结果表明HMM+ANN模型的识别率明显高于HMM模型的识别率。论文也对改进的端点检测算法也做了测试,改进算法在噪声环境下对两种模型的识别率都有一定改善。