论文部分内容阅读
语音识别是一门内容丰富、应用广泛的技术。本文着眼于汉语语音识别的主要问题,研究汉语语音孤立词识别的关键技术,以提高语音的识别率和识别模型的收敛速度。本文论述了语音识别的基本原理,从语音信号的时域、频域、倒谱域出发,对语音信号进行分析,介绍了语音信号分析方法中的滤波器组分析方法和线性预测编码技术,并推导了线形预测倒谱系数(LPCC)和Mel倒谱系数(MFCC)。在特征提取中,选用了基于听觉模型的MFCC,并与基于发声模型的LPCC参数进行分析比较。隐马尔可夫模型(HMM)和人工神经网络在语音信号处理中都有广泛的应用,本文剖析了两者在语音信号处理上各自的优缺点。为取HMM和人工神经网络这两种模型各自的优异特性,在本文研究的语音识别模型中,采用它们的混合模型,并提出了一种新的结合方式。即,将HMM的最佳状态序列的输出概率作为人工神经网络的输入。一方面由于BP神经网络能够根据提供的数据,通过训练和学习,找出输入输出的内在关系,不需要一个明确的数学解析式;另一方面由于离散隐马尔可夫模型(DHMM)会产生量化的误差,所以采用连续密度隐马尔可夫模型(CDHMM)和反向传播(Back Propagation)神经网络相结合的方式,充分利用了CDHMM的时域建模和BP神经网络强大的分类能力,同时充分考虑了孤立词语音的类间特性。实验表明这种结合方式在一定程度上提高了语音的识别率。本文还分析了传统BP网络训练上的局限性,在前人研究的基础上,对神经元采用更一般tan-sigmoid函数。在训练过程中,调整权值的同时对缩放系数和位移参数进行动态调整,使信息分布存储于权值矩阵及转换函数中,比传统的算法具有更强的非线性映射能力,实验表明这种改进的BP神经网络训练算法能够加快网络的收敛速度,而且能够在一定程度上克服传统训练算法容易收敛到局部极小值的局限性,从而提高了网络的收敛精度。