论文部分内容阅读
声学模型的研究对提高语音识别系统性能有着重要作用。隐马尔可夫模型(HMM)是目前国内外普遍使用的方法。HMM的一个基本假设是各观测矢量间独立同分布,这一假设没有考虑相邻帧特征矢量间的相关性信息。于是,如何充分利用特征矢量间的相关性信息,以得到更精确的数学模型,就成了众多学者努力的目标。本文在随机分段模型的框架之下,对语音识别中的帧间相关性建模方法进行了深入的研究。主要工作包括:(1) 分析了随机分段模型的建模思想,重点研究了基于分段的线性动态系统声学模型。随机分段模型在建模阶段能够充分利用特征之间的动态特性,其对语音信号的数学描述比起HMM来也更显精确。另外,通过大量的实验研究发现,语音帧间的依赖关系可以用线性模型来描述。基于这两方面考虑,线性动态系统分段声学模型可以更好地描述语音信号。(2) 实现了线性系统辨识EM算法,提出了一种基于统计分析的算法初始化方法。EM算法是一种很有效的最大似然估计方法。但是,它最大的不足就是收敛速度太慢。加快收敛速度的最直接的方法就是解决算法的初值问题。本文提出的算法初始化方法加快了算法收敛速度,且能保证算法数值稳定。(3) 提出了在分段时间归整后再进行轨迹平滑和根据上下文信息用多个模型为一个音节建模两个思想。轨迹平滑体现了线性动态系统的轨迹建模思想。通过考虑音节的上下文信息可以为音节建立更精确的数学模型。实验结果表明,将这两种思想在系统中实现,都可以使识别率有所提高