论文部分内容阅读
近年来,虽然大词汇量非特定人连续语音识别系统的性能已有较大的提高,但与人类自身的语音识别的“性能”相比仍相距甚远。其主要难点在于语音数据受多种因素影响而存在多变性。其因素包括说话人生理特点,表达方式、语速、情感、口音及方言等,可分为不同说话人之间的以及同一说话人自身的,这里将其统称为说话人多变性。如何在声学建模中有效地解决语音中说话人多变性问题一直是语音识别领域研究的热点,且目前仍未得到很好解决。
本文通过对说话人多变性问题进行语音学分析并借鉴心理声学中对人的语音知觉机理的研究成果,提出了基于覆盖思想的解决思路,包括在建模时充分考虑各种多变性因素信息(或称“标引信息”),并在识别阶段有效地估计和利用上下文的“标引信息”以提高识别性能。
首先在现有混合训练模型基础上,提出了概率潜说话人建模方法,自动获取影响语音变化的若干潜在说话人类别或潜在因素。利用连续语流中各潜在因素的一致性关系,提出了在识别过程中引入潜说话人模型的一遍解码方法。不需任何自适应数据,而直接在一遍解码过程中同时估计潜说话人信息和语音内容信息,在改善识别性能的同时大大提高了其在实际应用中的解码效率。
针对原始模型中多变性因素的内在结构信息没有得到较好保留的问题,提出了概率潜说话人自适应训练框架。与传统的自适应训练方法相比,其不是直接将说话人看做不同的多变性源头,而是引入了一层隐变量以表示各潜说话人类别或潜在因素,而特定说话人的特定的语句是这些因素组合作用的结果。不同于传统的自适应训练的归一化效果,通过概率潜说话人自适应训练方法在维持原经验设定的模型复杂度基础上对混合训练的模型的参数进行调整,效果是使模型对声学空间的覆盖范围更广。因此,概率潜说话人自适应训练可进一步带来性能的提高。
针对目前实际系统中广泛应用的建立类别相关模型的方法存在的问题,提出了模型复杂度扩展的潜说话人建模方法。通过为各潜说话人估计均值参数得到多个类别相关模型,与传统的说话人聚类方法相比,其优势一是将硬性分类的过程变为软聚类的过程,说话人是以某一概率属于某一类的;二是能够捕获类别的局部结构信息。在识别阶段,我们提出利用一遍解码时得到的潜说话人的分布对各类别的声学模型进行融合,使得识别性能得到有效地提高。
通过扩展模型复杂度可以达到更好的覆盖,同时也难免引入模型参数的冗余。针对这一问题,提出新的自动模型选择算法在声学模型训练同时自动确定高斯混合数目。贝叶斯阴阳学习理论提供了新的机器学习的理论框架,与传统的模型选择准则相比,其优点是能够在学习模型参数的同时自动的确定模型复杂度。为了将其更好的应用于声学模型训练,提出并实现了在高斯分量层采用贝叶斯最大和谐准则下的新的批处理式算法,使其与现有隐马模型的Baum-welch训练算法框架有效地结合,形成一套自动确定声学模型中个状态混合高斯数目的训练算法。对各个潜说话人模型分别引入自动模型选择的重训练,训练后结果表明该算法能够有效地对高斯数进行裁剪,在提高模型对声学空间的覆盖程度的同时保持其紧密性,并最终提高语音识别的性能。
文中最后是讨论与展望。