论文部分内容阅读
今天,各种高效、快捷的算法使得建立实时的连续语音识别系统成为可能,但是在实际应用中由于说话人的改变会使得系统性能下降。说话人自适应技术利用少量的自适应数据来提高系统性能,能够较好的解决这这种声学差异问题。本文将基于大词汇量连续语音识别平台,围绕说话人自适应技术展开研究,具体工作和创新包括以下几个方面:1.MAP和MLLR算法比较文章在讨论由说话人引起的声学差异基础上,研究两种基于模型的自适应算法:最大似然线性回归(MLLR)和最大后验概率(MAP)。实验结果表明,不论采用哪种自适应都能使识别率有一定的提升。两种算法之间的差异性在于MAP具有良好的渐进性,但收敛性较差,而MLLR在很大程度上改善了收敛特性,但其渐进特性却不如MAP。文章讨论了在MAP自适应中,初始模型参数的先验知识对自适应效果的影响,以及在MLLR中,回归类对自适应效果的影响。文章还进一步研究了采用两种算法的累加自适应效果,从结果看MAP和MLLR结合的方法比单独使用MAP和MLLR的效果要好。文章还对包括基于特征层的归一化算法和用于基于声学模型的MLLR算法等效性进行讨论,并给出了统一的算法框架。2.改进的基于聚类的说话人自适应算法文章提出以模型间加权交叉似然比为距离测度的说话人聚类自适应算法框架。在识别过程中,寻找训练说话人和测试说话人的相关性,充分利用可以提供的自适应语料和训练语料,是提高说话人自适应性能的有效手段。本文中,利用高斯混合模型来表征说话人,并通过说话人聚类来减少参考模型数量,实现粗分类。以此为基础,根据测试说话人的声学特征对参考说话人进行选择,从而实现快速说话人自适应。同时,文章还采用了统一的背景模型来作为各说话人模型的基线系统以增加模型间的耦合度。在目标说话人模型生成阶段,本文利用模型训练过程中产生的声学统计量,快速得到所需的模型参数。实验结果表明,利用说话人聚类技术进行参考说话人粗分类后,识别率比基线系统有较大提高。而且,粗分类精识别的手段表现在不同模型混合度上,都取得了较好的性能。3.参考说话人的动态选择技术及其改进文章在对参考说话人选择技术进行分析的基础上提出了基于支撑向量机的动态参考说话人选择技术(Speaker Support VectorSelection,SSVS)。参考说话人数量及其数据是否足够描述所有参考说话人的分布是取得好的自适应效果的关键。支撑向量机具有自动寻找那些对分类有较好区分能力的支撑向量的能力,因此本文提出将参考说话人视作支撑向量,结合支撑向量机训练过程进行参考说话人选择,以满足最优化和动态的要求。SSVS将参考说话人的选择由手动变为自动,同时满足声学模型完整性和声学近似性的要求。实验证明,这种方法能够取得较好的自适应效果。在此基础上,文章对SSVS进行改进,通过直接选取代表参考说话人的支撑向量来完成参考说话人选择(Reference Support SpeakerSelection,RSSS)。动态参考说话人选择的实现关键在于寻找代表参考说话人的支撑向量。本文借助SVM中的核函数来计算高维特征空间中两个样本间的距离,遍历训练样本集后得到最优分类面附近的样本集,其中各样本即为所需要的参考说话人支撑向量,同时,文章利用置信度来约束支撑向量选择过程。实验数据表明基于RSSS的说话人选择能有效提高系统性能。