论文部分内容阅读
语音是实现人们之间沟通交流的最直接与方便的手段,而实现计算机与人之间畅通无阻的语音交流,一直是人类不懈追求的梦想。说话人识别是语音信号的一个重要的研究方向,有着重要的理论意义和广泛的应用前景。在本质上讲,说话人识别技术大体上可以分为特征提取和识别模型两部分。因此从某种意义上说,说话人识别研究主要问题的存在都可以归结为是由特征提取部分或者识别模型部分的局限性引起的。大量的研究表明,目前说话人识别的问题主要来自于说话人的特征提取上,如何寻求新的更具有个性特征的表现力、拥有更强的鲁棒性的语音特征,或者对现有特征进行优化的选择、融合、补偿等方法来增强现有系统的性能,仍然是说话人识别技术领域中一个亟待解决的重要问题。本论文对基于Fisher准则构造的混合特征参数和高斯混合模型的说话人识别系统进行了研究,主要做了以下几方面的工作:(1)介绍了说话人识别系统的相关概念、基本原理和一般步骤。(2)在传统的说话人识别系统中,语音片段通过预处理后一般直接进行特征提取,这样做会存在一个缺点:语音片段中通常都存在一些无声段,如果不剔除无声段而直接提取特征,提取的语音特征中就会包含无声段的语音特征,这些特征对说话人识别会有干扰,从而降低了正确识别率。为此本文在语音经过预处理后增加了语音端点检测的过程,然后再提取特征。语音端点检测的目的是剔除语音片段中的无声段,这样既能减少计算量又能排除无声段的干扰,从而提高说话人识别的正确识别率。还详细介绍了端点检测的过程和一些常用特征提取的过程以及它们的MATLAB实现。语音特征提取完后,传统的特征选取是采用常用特征中的一种或者几种特征的简单组合,而这些特征中可能包含一些冗余信息或者对识别性能有干扰的语音信息,这些冗余信息和干扰的语音信息会降低识别性能。为此本文在结合LPCC、MFCC以及它们的Delta特征的基础上利用Fisher准则进行特征选择,选出类别可分离性最好的特征参数同时去除了那些冗余信息或对识别性能有干扰的信息,达到降维和提高识别性能的目的,并给出了它的MATLAB实现。(3)详细介绍了基于高斯混合模型的说话人识别系统的基本概念、EM算法、GMM参数的初始化和基于高斯混合模型的说话人识别系统的判别准则及其MATLAB实现。(4)为了使说话人识别系统的识别性能达到最高,通过实验与分析,首先需要确定说话人识别系统的最佳基本要素,如:LPCC和MFCC特征参数的阶数、GMM模型的阶数、测试语音长度,然后研究利用Fisher准则对单一特征或者各种特征参数进行组合进行特征选择后对识别性能的影响。证明了利用Fisher准则对特征进行选择有利于识别性能的提高,并给出了使识别性能达到最高的特征参数组合。