基于源滤波器听觉感知的说话人识别研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:zhuzhuzhuxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为人们日常交流的主要方式,语音不仅包含着说话人要表达的内容,其本身还蕴含着说话人特有的身份信息。近几十年,声纹领域的研究取得了重大的进展,在实验室中的识别效果更是取得了质的飞越,而在实际应用中,由于信道和环境等因素的影响,语音会夹杂各种噪音,导致说话人识别系统的性能显著下降。同时,由于说话人识别商业化的迫切需求,噪声下的说话人识别成为了研究的热点。针对说话人识别的鲁棒性问题,本文重点从语音增强和特征提取两方面进行研究。主要研究内容和创新点如下:1、本文重点研究调制域卡尔曼滤波和理想二值掩码(Ideal Binary Mask,IBM)的原理,通过对调制域卡尔曼滤波进行改进,得到一种基于IBM的调制域卡尔曼滤波模型(IBM-Based Modulation-Domain Kalman Filter,IMDKF)。利用IBM对于目标语音的T-F单元的辨别能力对卡尔曼滤波模型中的噪声估计和目标语音的线性预测模块进行先验估计。实验结果证明,IMDKF模型比调制域卡尔曼滤波模型具有更好的语音增强性能。2、通过研究语音信号的产生原理,将源滤波器模型引入语音识别。基于源滤波器模型和Bark尺度划分方式,本文提出一种新的语音特征——源滤波器bark子带感知特征(Source Filter Model Bark Perception,SFBP)。根据语音源滤波器生成模型,首先提取表达声道特征的线性预测系数;然后根据Bark尺度划分,对源滤波器模型中的激励信号进行子带感知滤波;最后将线性预测系数和子带滤波能量特征联合作为说话人识别特征。实验证明,SFBP特征对于非平稳噪声具有较强的鲁棒性,但在平稳噪声情况下的效果不是特别理想。因此,结合人耳听觉模型,本文又提出一种新的改进识别特征——源滤波器听觉模型感知特征(Source Filter Auditory Perception,SFAP)。SFAP特征主要根据人耳听觉模型,通过Gammatone滤波器对源滤波器模型中的激励信号进行听觉感知滤波;然后将表达声道特征的线性预测系数和通道系数能量特征联合作为识别特征。实验证明,相比传统MFCC和GFCC,无论是在平稳还是非平稳噪声环境中,SFAP特征的识别性能都更好。3、结合提出的IMDKF语音增强方法和源滤波器感知特征特征提取方法,本文构建了基于i-vector模型的说话人识别系统。实验结果表明相比原MDKF-MFCC识别系统,在white噪声下,基于IMDKF-SFAP和基于IMDKF-SFBP的说话人系统的EER值分别降低了约3个百分点和1.8个百分点;在babble噪声下,基于IMDKF-SFAP和基于IMDKFSFBP识别系统的EER值分别降低了约2.7个百分点和3.3个百分点。并通过采集真实噪声进一步验证了IMDKF,SFAP和SFBP的有效性。
其他文献
自1999年以来,笔者在临床上采用推拿手法治疗婴幼儿腹泻,疗效显著,现报道如下.1临床资料300例患者均为门诊病人,随机分为推拿治疗组和口服中药组各150例.治疗组150例中,男83
随着足球运动越来越受到国家重视,无论是青少年还是高校学生都有必要去进行足球活动,但是足球的枯燥使他们望而却步,因此在足球教学中要更多的从兴趣入手,本文将足球游戏应用
变速箱的工作环境十分恶劣,在工作过程中伴随着不断变化的激励载荷,特别是在低速重载的工况下,箱体承受着较大的冲击载荷。若箱体结构的强度和刚度不足,则会引起箱体开裂和变
巢湖是合肥市及巢湖市两地及沿湖居民的重要引用水源地,随着环巢湖经济圈的崛起,工农业生产的迅速发展,大规模的水利工程建设和人口的快速增长,给这一地区的生态环境带来了巨
营销——不仅在美容领域,在任何现代企业都已上升为最重要的部门和重点研究的对象。专业美容企业的营销模式,是一个复杂并且动态运行的课题。近年来,许多专业营销机构都开始
会议
凡物有起因,必有结果。如“种瓜得瓜,种豆得豆”一般。现代医学重视医学检测指标的高高低低和影像结论,这些现代先进的技术固然让人更客观地认知自己的身体,检测的客观化数据让人
针对大规模车标图像的分类难题,提出一种结合支持向量机(SVM)和随机森林的学习方法。采用SVM分类器对到达随机森林各剖分结点的数据进行剖分;对于分类过程中新增加的类别,采用
良好的师德,对学校、学生的发展有着深远的影响。随着社会越来越重视学生的综合素质,对师德的要求也越来越高。作为一名中职教师来说,以师爱为根本,培养良好的师德更至关重要。