论文部分内容阅读
实用背景下,电话(手机)语音的文本无关的说话人确认已成为当前说话人识别研究的重点,将区分性强的支持向量机SVM用于确认问题是个合理的选择,然而将目前常用的短时倒谱参数MFCC用于文本无关的说话人确认需要较长的语音,因此,SVM作为话者模型时将会遇到大训练样本、两类数据混叠严重等问题,使SVM的建模十分困难。概率统计模型GMM可以对大量语音数据的统计分布特征进行描述,能有效地表示出目标说话人的特性,且具有较好的鲁棒性,从而成为文本无关的说话人识别的主要模型,但GMM建模只是对目标说话人一类数据进行的。针对SVM用于文本无关的说话人确认的问题,论文将概率统计模型GMM用于基于SVM的文本无关说话人确认,对SVM话者模型的建模策略、用于SVM模型的特征变换、说话人确认系统中的确认阈值设置和评分规整等方面进行了深入研究。首先,对于SVM话者模型的建模策略,论文为每个目标话者训练一个SVM模型。针对模型训练时冒认话者数量众多影响训练效率的问题,论文提出了两种基于GMM的冒认话者选择方法,通过GMM的似然度评分来选取少量与目标话者最接近的冒认话者作为训练数据,不仅极大地减少了训练数据量,提高了模型的训练效率,而且使模型具有更好的区分性。其次,论文提出了基于GMM聚类特征变换的SVM说话人确认方法,通过GMM聚类的特征变换,突出了说话人个性信息,大大降低了特征样本数,减少了两类数据的混叠,使得SVM话者模型建模变得简单、有效。为了进一步提高变换特征的可比性和鲁棒性,论文提出了基于统一模型(UM)的GMM聚类方法,对各个特征数据集的聚类都由统一模型UM通过最大后验概率(MAP)自适应获得,实现了对不同特征数据集的聚类“规整”,提高了系统的区分能力。针对基于UM-MAP的GMM聚类特点,论文又提出了一种改进的变换参数提取方法,通过UM进一步对变换特征进行规整,有效地提高了变换参数的区分性和鲁棒性。NIST数据库上的话者确认实验表明,基于特征规整变换方法的UM-MAP norm/SVM系统相比主流的GMM-UBM系统,在EER性能上相对提高了21.6%。再次,论文研究了另外一种将GMM和SVM相结合的方法——GMM-SVM组合话者模型,将GMM作为话者模型的一部分和SVM共同组成话者模型。GMM作为前级模型主要起了两个作用,对特征数据集进行有区分性的特征变换及数据压缩,并以其多维概率输出作为后级模型SVM的输入矢量。NIST数据库上的实验证明,基于GMM-SVM组合话者模型的话者确认系统在EER性能上相对基准的GMM-UBM系统提高了14.9%,表明了组合的有效性。最后,论文还对说话人确认中的确认阈值设置和输出评分规整进行了研究。说话人确认中不同目标话者模型输出评分分布的不一致性,导致统一确认阈值设置困难,论文提出了一种新的组合评分规整方法——TZ-norm规整,通过对输出评分的整体规整,不仅提高了系统性能,而且有效降低了确认阈值选取的复杂度。NIST数据库上文本无关的说话人确认实验证明了新方法对统一确认阈值选取的有效性。