论文部分内容阅读
耳语发音是人的一种特殊发音方式,与正常发音相比有很大差别。耳语音在人们的日常生活中应用普遍且起着较为广泛的作用。耳语发音方式下的说话人识别是一个有意义的课题。耳语音的发音特性决定了耳语音说话人识别的难度要大于正常音说话人识别。考虑到耳语发音比正常发音变化大,实验中较难获得充足的耳语音训练数据,本文着手研究一种正常音训练的耳语音说话人识别系统。由于耳语音有别于正常音,当耳语音说话人识别系统用正常音训练时,识别性能就会发生急速下降。在这种情况下,如何提高耳语音说话人识别系统的准确率就很值得探讨与研究。针对以上问题,本文主要做了以下几个方面的工作:一、针对正常音训练的耳语音说话人识别系统,引入了两种新的特征提取方法:线性频率倒谱系数(Linear Frequency Cepstral Coefficients, LFCC)和指数频率倒谱系数(Exponential Frequency Cepstral Coefficients, EFCC),这两种特征提取方法都强调了语音的高频部分。实验证明,在高斯混合通用背景模型(GMM-UBM)下的耳语音说话人识别系统中,LFCC和EFCC特征要优于传统的美尔频率倒谱系数(Mel-FrequencyCepstral Coefficients, MFCC)特征,识别率提高了8%左右。二、通过计算正常音-耳语音、正常音清辅音-耳语音清辅音高斯混合模型(Gaussian Mixture Model, GMM)之间的KL散度距离,证明正常音和耳语音相比较,它们的清辅音成分之间具有更大的相似性。然后提取了耳语音的细节信号系数与近似信号系数之比(Detail-Approximation Energy Ratio, DAER)作为特征参数用于耳语音的声韵分割。三、为了进一步改善正常音训练的耳语音说话人识别系统的性能,本文将清辅音应用于耳语音说话人识别系统中,得到正常音清辅音训练、耳语音清辅音测试的说话人识别系统。实验表明,同样在LFCC特征提取下,相比于正常音训练、耳语音测试的系统,其识别率提高了28%左右。