论文部分内容阅读
说话人识别,又称为声纹识别,它是一种生物识别技术。由于语音具有自然性、唯一性、易采集性等优点,使得说话人识别技术受到了人们的青睐,得到广泛关注和研究。说话人识别是一个综合了多个学科的研究课题,它交叉运用心理学、生理学、数字信号处理、模式识别、人工智能等不同领域的知识。说话人识别可以应用在需要进行身份认证的各种安全领域、互联网应用及通信领域、呼叫中心领域等。本文侧重研究稀疏分解在语音信号处理领域的应用,尤其是在说话人识别领域的应用。现在的说话人识别系统基于长时语音段的应用已经可以达到很高的识别率,但是在较短时长的语音中的识别率则不高。基于上述分析,本文提出新的方法来提高短时场景下说话人识别系统的识别率。处理能力较弱的终端(如手机终端)的计算速度受限,存储空间较小,因此在实际应用中计算时间和内存需求越少越好。基于上述分析,本文提出新的方法来优化说话人识别系统的内存和计算速度。本文以说话人识别和稀疏分解技术为背景,着重研究稀疏分解在说话人识别领域的应用,主要目的是提高短时语音下的说话人识别系统识别率,以及减少内存,提高计算速度等。具体来说,论文主要工作和创新如下:首先,针对短时场景下说话人辨别系统的识别率有待提高的问题,本文研究了在对数滤波器组能量(log filter-bank energies,log FBE)特征基础上,利用稀疏字典模型来表征每个说话人子空间的说话人识别技术。在此字典模型上,主要提出了两个创新方法:(1)为了减小字典太大造成内存需求的负担,本文研究两种方法来减少字典模型尺寸,这两种方法分别是直接训练欠完备字典模型,以及概率统计的方法来减小字典尺寸,实验结果说明了本文提出的字典尺寸减小方法有着很好的识别效果。(2)在字典模型基础上,我们还提出了一种加性噪声环境下的鲁棒性说话人识别技术,在训练阶段,通过训练不同信噪比的含噪语音的字典模型并叠加,使得说话人识别系统具有更强的鲁棒性。其次,针对说话人识别系统内存和计算速度有待优化的问题,本文指出I-vector方法中影响说话人识别系统内存和计算速度的关键因素是全局差异矩阵,这也是说话人识别软件广泛应用于一些小型移动终端的障碍。本文考虑将全局差异空间用稀疏分解的方法分解成两个子矩阵,以达到减少内存和提高运算速度的效果。在此基础上,主要提出了两个创新方法:(1)本文在对全局差异空间稀疏分解后有两种处理方法,第一种是直接计算分解为两个子矩阵,第二种是在稀疏分解后再次进行了近似处理(近似计算)。实验表明直接计算方法可以得到和基线系统一样的识别效果,而近似计算方法在对识别结果影响不大的前提下,可以将运算速度提高一个数量级。(2)在全局差异矩阵的稀疏分解基础之上,本文还研究了一种类特征值分解在全局差异矩阵上的优化算法,旨在减小近似计算带来的误差,从而达到在保持和近似算法计算速度一致的同时提高说话人识别系统的识别效果的目的。最后,同样是针对说话人识别系统内存和计算速度有待优化的问题,本文研究非标准正态分布情况下在空间正交化先验下的I-vector表达式,并在此情况下进一步优化算法。快速算法一般都会影响识别效果,本文则研究在对最后结果影响不大时,运行时间达到基线算法的1/10或者更快的快速算法。本文提出的快速算法的实现基于两个步骤:先验概率的空间正交化和等比缩放假设。为了使等比缩放假设更加的有效,本文提出了一种使用预加权的统计量,这样的处理方式将通用背景模型(Universal Background Model,UBM)的全部变量:权重,均值,以及方差都使用在统计量中。实验显示了使用预加权的统计量对快速算法有一定的识别效果提升作用。