论文部分内容阅读
大词汇量连续语音识别(Large Vocabulary Continuous Speech Recognition,LVCSR)是语音识别研究的重点和难点之一,其涉及了声学模型、语言模型、搜索算法等多方面的知识和技术;本文在介绍语音识别的基本原理基础上,就如何提高LVCSR的识别速度以及识别准确率两方面进行了研究和探讨。在基于HMM的LVCSR系统中其声学建模常用连续密度HMM来实现,每个HMM状态都表示为一个高斯混合模型(GMM),而每个GMM模型又包含较多的高斯分量,这使得状态似然率的计算量非常大,是语音识别速度慢的主要原因之一,因此有必要设计有效的似然率快速算法在不降低或不明显降低识别准确率的前提下加快似然率的计算。本文首先分析了HMM中的似然率计算,并分析了采用并行方式实现似然率计算的可行性,在此基础上提出了一种基于SIMD的似然率并行计算算法,并利用HTK3.4工具包作为实验基线系统、TIMIT和WSJO语料库作为实验语料库搭建实验平台,将此算法与部分距离消去算法(PDE)、最佳混合分量预测算法(BMP)、特征矢量重排算法(FCR)以及高斯选择算法(GS)等其他经典快速似然率算法进行比较;实验结果表明,该算法在不降低识别准确率的前提下显著降低似然率计算开销,并且性能优于其他几种似然率快速算法。为了将语义信息与N-gram统计语言模型结合并运用到语音识别过程中以提高LVCSR系统的识别准确率,本文研究了潜在语义分析(LSA)理论及其在LVCSR系统中应用的相关技术,在此基础上利用WSJO文本语料库构建LSA模型,并将其与N-gram模型进行插值组合,构建了包含语义信息的混合模型;同时为了优化混合模型的性能,利用基于密度函数初始化类中心的K均值聚类技术对LSA模型的向量空间进行聚类,并提出平滑计算方法对概率进行平滑。WSJO语料库上的模型困惑度实验和连续语音识别实验结果表明:混合模型性能优于N-gram,LSA能在一定程度上辅助N-gram提高LVCSR的识别率。