清辅音特征分析及其在耳语音说话人识别中的应用

来源 :苏州大学 | 被引量 : 0次 | 上传用户:qwertyuiopgfdsa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
耳语发音是人的一种特殊发音方式,与正常发音相比有很大差别。耳语音在人们的日常生活中应用普遍且起着较为广泛的作用。耳语发音方式下的说话人识别是一个有意义的课题。耳语音的发音特性决定了耳语音说话人识别的难度要大于正常音说话人识别。考虑到耳语发音比正常发音变化大,实验中较难获得充足的耳语音训练数据,本文着手研究一种正常音训练的耳语音说话人识别系统。由于耳语音有别于正常音,当耳语音说话人识别系统用正常音训练时,识别性能就会发生急速下降。在这种情况下,如何提高耳语音说话人识别系统的准确率就很值得探讨与研究。针对以上问题,本文主要做了以下几个方面的工作:一、针对正常音训练的耳语音说话人识别系统,引入了两种新的特征提取方法:线性频率倒谱系数(Linear Frequency Cepstral Coefficients, LFCC)和指数频率倒谱系数(Exponential Frequency Cepstral Coefficients, EFCC),这两种特征提取方法都强调了语音的高频部分。实验证明,在高斯混合通用背景模型(GMM-UBM)下的耳语音说话人识别系统中,LFCC和EFCC特征要优于传统的美尔频率倒谱系数(Mel-FrequencyCepstral Coefficients, MFCC)特征,识别率提高了8%左右。二、通过计算正常音-耳语音、正常音清辅音-耳语音清辅音高斯混合模型(Gaussian Mixture Model, GMM)之间的KL散度距离,证明正常音和耳语音相比较,它们的清辅音成分之间具有更大的相似性。然后提取了耳语音的细节信号系数与近似信号系数之比(Detail-Approximation Energy Ratio, DAER)作为特征参数用于耳语音的声韵分割。三、为了进一步改善正常音训练的耳语音说话人识别系统的性能,本文将清辅音应用于耳语音说话人识别系统中,得到正常音清辅音训练、耳语音清辅音测试的说话人识别系统。实验表明,同样在LFCC特征提取下,相比于正常音训练、耳语音测试的系统,其识别率提高了28%左右。
其他文献
当前信息化时代,现代信息系统在医院内部已取得广泛应用.这意味着通过信息系统对医院进行内部审计,更符合时代发展的要求.本文将针对现代信息系统下医院内部审计展开研究分析
超短波电台成本低,通信效果好,应用范围比较广泛.超短波传播方式主要是直射波,受地形地物等自然环境影响大,通过研究使用超短波电台时自然环境对超短波传播损耗的影响,分析超
为了解决油田采油厂传统人工巡检原油集输管线周期长、效率低、覆盖率不足等问题,基于无人机不受地域限制特点,搭建无人机巡检平台,运用无人机进行原油集输管线巡检,通过无人
近十年来,随着互联网技术的快速发展和图像采集设备的日益普及,数字图像已经成为人们日常生活中最重要的信息来源之一。然而,在图像数量飞速增长的同时,图像篡改手段也变得越来越
线性调频扩展频谱信号以抗频偏、抗多普勒频移和抗干扰能力强,实现复杂度低,并且具备测距和定位能力成为了目前研究的热点[2].多载波技术能够有效解决无线信道的衰落问题,是