论文部分内容阅读
自动语音识别系统能够很好地识别无噪声干扰环境下的纯净语音。然而,在实际环境中通常会存在噪声和混响等,这些无疑会影响语音识别的效果。特别是当麦克风与用户间有一定的距离时,麦克风捕获的语音信号质量会迅速降低,使得语音识别系统的识别效果迅速变差。把麦克风阵列作为语音识别系统的前端,减少噪声干扰对系统识别率的影响,进而改善噪声环境下远距离语音识别系统的性能。论文首先描述了语音特征参数、声学模型和语言学模型等语音识别的基础理论。接着,系统地研究了基于阵列参数优化的麦克风阵列语音识别方法。然后,分别说明了改进的实验平台设计和实现阵列语音识别的方法。麦克风阵列语音识别包括麦克风阵列信号的处理和语音识别两部分,现有绝大多数的研究方法是先语音增强再语音识别即两部分进行独立研究的方法。论文采用联合阵列信号处理和语音识别的方法,即基于阵列参数优化的多通道语音识别方法,该方法能够增强有利于识别的语音信号分量,有效地提高系统识别率。论文以HTK(隐马尔可夫模型工具集)作为基础平台实现了基于阵列参数优化的麦克风阵列语音识别。通过分析汉语语言独有的发音特征,结合HTK模块训练了相应的声学隐马尔可夫模型和语言学模型。同时,设计了决策树所依赖的问题集,以有利于决策树的搭建,从而改进了声学模型,得到了一套以连续汉语为基础的特有的声学模型参数,从而搭建了优化后的麦克风阵列连续汉语语音识别的实验基础平台。考虑到DOS环境下单独调用HTK各个模块实现语音识别的步骤繁琐,采用MATLAB编程调用HTK模块的方法,代替单独调用HTK模块的方法,精简了实验的操作步骤,提高了实验效率。结合MATLAB和HTK工具,对各类方法在不同信噪比情况下的语音识别性能做了实验。仿真实验结果表明,在低信噪比的背景环境下,基于阵列参数优化的麦克风阵列语音识别系统有较好的鲁棒性能。