论文部分内容阅读
众所周知,在噪声环境下如果我们不采取任何措施,那么自动语音识别系统的性能将会大幅下降。本文的主要目标是在面对各种噪声带来的负面影响时,如何增强识别系统的鲁棒性。噪声鲁棒性方法大体上可以分为两大类:特征域方法和模型域方法。本文对这两类方法均开展了深入的研究,主要创新点如下:首先,我们提出一种新的基于隐式模型的特征规整算法,即倒谱形状规整(CSN)算法。我们观察到在噪声环境下特征分布的形状相比于干净环境变化很大,CSN通过引入一个指数因子来达到对倒谱分布形状规整的目的。这个新方法被证明比传统的HEQ和HOCMN方法更加有效,尤其是在低信噪比情况下。接着,我们转到另一种新的基于显式模型的特征补偿方法,即分段线性近似(PLA)方法。通过对环境模型的分段线性近似,可以比传统的VTS和MAX这两种方法得到更为精确的近似,同时给出了基于MLE的噪声参数估计和基于MMSE的干净语音估计的相关理论推导,此外实验表明针对当前句子的不同段采用不同的分段近似方式能进一步带来性能的提升。我们不仅在语音识别中验证了PLA方法的有效性,还将此方法在语音增强中加以应用,主客观测试都取得了较好的效果。但是PLA方法并不完美,它最大的缺陷在于所有理论推导都假设在对数谱域滤波器组各个通道之间互不相关。因此从另一个精确近似的角度,我们提出了一种新的基于高阶矢量泰勒展开(HOVTS)的方法。HOVTS具有以下优点:1.环境模型中同时考虑了加性噪声和信道畸变,2.对非线性环境模型可以进行任意高阶近似,3.滤波器组各通道之间的相关性可以加以考虑。最后,我们考察了HMM经过区分性训练之后的噪声鲁棒性。作为预备知识,先介绍了我们提出的区分性训练新准则,即最小化散度(MD)准则,实验表明在干净环境下小任务和大任务上MD准则性能均优于时下流行的MPE准则。然后讨论了噪声鲁棒性区分性训练的若干技术细节,包括MD准则和MWE/MPE准则的优劣,如何设计ML基线系统以及如何处理静音/背景模型等等。以上所有新方法的实验都是在小任务Aurora2和Aurora3上完成,这两个数据库都是连续数字串任务,并且是专门为验证噪声鲁棒性方法而设计。为了实验的完整性,我们也比较了不同技术在LVCSR大库Aurora4上的优劣。初步实验再次表明,LVCSR的噪声鲁棒性至今仍然是一个很难的开放性问题。