论文部分内容阅读
说话人识别技术因其自身独特的方便性、经济性、准确性和可扩展性等优点,在生物特征识别领域中具有广阔的应用前景。尽管在实验室环境下,说话人识别系统已经取得了比较令人满意的效果,但是现实中的各种外界因素使得系统性能明显下降。为了提高系统实用化程度,还需要解决很多问题,其中一个显著的问题就是如何在训练数据不足的情况下提高系统的性能。针对训练数据不足的特点,本文在对说话人建模时采用的是高斯混合模型—通用背景模型(Gaussian Markov Model-Uniform Background Model, GMM-UBM),主要从说话人识别模型的自适应方法和参数估计方法两个方面,研究如何提高说话人识别系统的识别率。在说话人识别模型自适应方面,改进传统的用最大后验概率MAP (Maximum A Posterior Probability)得到说话人模型的方法,将语音识别中的最大似然线性回归MLLR (Maximum Likelihood Linear Regression)和基于特征音(EigenVoice, EV)的自适应方法,应用到说话人识别模型自适应当中,并将其与MAP方法进行比较;针对MAP和MLLR各自的优缺点,将其结合为综合渐进的自适应方法。在参数估计方面,考虑到常用的基于最大似然ML(Maximum Likelihood)准则的算法有一定局限性,它不能有效地刻画说话人之间的差异。针对这一不足,可以引入近年来语音识别算法中基于最小分类错误MCE(Minimum Classification Error)的训练方法,它以最小分类错误为目标进行区分性训练。采用MCE方法有助于提高说话人识别系统的性能。实验结果表明,针对不同训练语料的数量,首先应用合适的自适应方法进行说话人识别模型的自适应,再利用基于MCE的参数训练方法对系统改进,这样系统的识别率会有显著的提高,得到测试的最好识别率为91.2%。