论文部分内容阅读
目前常用的鲁棒语音识别研究主要是基于测试环境和训练环境的失配问题提出的,例如鲁棒语音特征参数提取、特征补偿和模式自适应的方法,这些鲁棒性算法的研究出发点都是要保证测试特征参数和训练特征参数模型的一致性。而人耳听觉系统的语音信号处理系统具有较强的鲁棒性,能够在极其嘈杂的声学环境下实现准确的语音感知和识别。相关研究指出人耳听觉感知过程可以分为两个阶段:第一,声学信号的切分(segmentation)过程,第二,属于同一声学目标的感知成分的组合(grouping)过程,从而形成不同声源连贯的数据流(coherentstream)。也就是说听觉系统的感知过程,实际上是听觉场景中不同声源信号的重组织过程,混合声信号中属于同一声源的分量组织到一个数据流中,从而得到不同声源的数据流,使得人耳的听觉系统可以区分不同的声源。在此基础上,再进行进一步的处理。因此从人耳声信号处理的机制出发,我们对基于语音分离的鲁棒识别方法进行研究。考虑到由于基于方位信息的语音分离与语音信号内容、说话人无关,同时基于空间方位信息的语音分离无需建立源信号参数的统计模型。由于空间分离后,特征参数存在数据丢失的问题,因此本论文将基于空间分离的语音分离方法和基于丢失数据的语音识别方法进行了结合,提出了融合空间方位分离和丢失数据的孤立词识别算法。本论文的主要工作如下:(1)对语音识别系统的基本结构进行了概述,包括预处理、特征提取与HMM语音模型。具体分析了现有鲁棒语音识别技术在信号空间、特征空间与模型空间所包含的代表性的技术。并由此引入本文的重点研究内容:基于丢失数据的语音识别技术。(2)分析了现有鲁棒识别系统经常使用的语音特征参数,包括倒谱域中的梅尔倒谱系数(MFCC)和线性预测倒谱系数(LPCC)。基于丢失数据技术的基本原理,本文研究了另外两种频域中的参数:基于梅尔滤波器组的FBANK参数和基于Gammatone滤波器组的子带RateMap参数,并基于HMM通过Matlab进行仿真测试,实验表明,这两种参数可以应用于基于丢失数据的语音识别系统之中。(3)实现了基于空间分离和丢失数据技术的语音识别系统。基于空间信息的语音分离算法基于语音信号的稀疏性生成不同声源的二元掩膜,这种判决方式会产生目标声源频域成分丢失的问题。本文研究了两种算法对丢失的数据部分进行处理。一种是完全忽略数据的丢失部分,仅使用未丢失的数据进行语音识别,即边缘概率技术。另一种是通过特定的方法恢复数据的丢失部分,得到完整的数据用来进行语音识别,即数据估计技术。仿真实验表明两种技术在低信噪比下识别性能有显著提升。