论文部分内容阅读
近年来,在生物特征识别领域,说话人识别以其独特的安全性、经济性和准确性等优势受到越来越多的关注,并逐渐成为人们生活和工作中重要的身份验证方式,具有广阔的市场前景。说话人识别的一个重要研究分支是说话人确认,本文着重对说话人确认展开研究。本文从说话人确认的系统框架入手,对系统的各部分予以详细的介绍。随后针对复杂条件下的说话人确认问题,重点研究了特征提取、说话人分割、模型建立等技术。本文的主要研究工作及创新点如下:1.构建基于GMM-UBM的说话人确认系统并将其作为本文的基线系统,研究分析了影响系统性能的相关因素,包括高斯混合度、训练语音长度、得分规整技术,并通过实验进行验证。2.在特征提取方面,为了提升噪声环境下说话人确认系统的性能,本文提出了一种具有较强噪声鲁棒性的多窗谱减MFCC特征。多窗谱减MFCC是在已有多窗谱MFCC(Multitaper MFCC)基础上的改进,主要是将多窗谱估计技术与谱减法进行了结合。仿真结果表明,当测试语音中含有加性噪声时,与多窗谱MFCC提取算法相比,采用多窗谱减MFCC的说话人确认系统性能在等错误率EER和最小检测代价函数值minDCF两项评测指标上都取得了较好的结果。3.在说话人分割方面,针对传统基于BIC的说话人分割算法累积计算量大、冗余分割点过多,导致分割速度慢、分割准确度降低的问题,相关文献采用了分治算法对其进行改进,虽然改进法能够大幅提高分割速度,但准确度却有所降低。为了达到分割速度与分割准确度同时提高的目的,本文首先在具体实现BIC说话人分割算法时提出了三步分割的策略,在此基础上引入分治算法思想对其进行改进。实验结果表明,改进后的分割算法在分割速度上有较大提高,准确度上也有一定提升。4.在模型建立方面,探索研究了i-vector说话人建模技术,重点研究了i-vector的提取过程,构建基于i-vector的说话人确认系统,并将其与基于GMM-UBM的说话人确认系统进行了对比分析。