基于人耳听觉特性的语音识别及在人机交互上的应用

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:csfyl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着噪声的增加,机器语音识别性能急剧恶化,而人类听觉系统的识别效果却是相对稳定的,这就启发了我们从仿生的角度来研究语音识别,而基于听觉特性的语音识别研究也是目前的研究热点和难点之一。因此,基于人耳听觉特性的语音识别人机交互具有非常重要的理论研究意义和较高的实际应用价值。   首先,对基于人耳听觉特性的语音识别原理进行了深入的理论研究,掌握了人耳语音接收过程的生理学和人耳听觉系统对语音信号的信号处理机制,总结了语音感知特性和噪声特性,并给出了典型的基于人耳听觉特性的语音识别系统,为以后的研究打下的扎实的理论基础。   接着,本文研究了基于语音分离的预处理。本文对传统基于端点检测和语音增强的预处理方法进行了研究,发现其只适用于较为简单的噪声(如:高斯白噪声)环境下,且随着信噪比的下降,语音识别系统的识别率直线下滑。因此,我们将基于人耳的听觉选择能力即“鸡尾酒会效应”的语音分离技术应用到前端,更有利于提高语音识别系统在多声源和复杂噪声环境下的识别性能。   然后,本文研究了基于入耳听觉特性的语音特征提取。本文阐述了几种常见的语音特征LPCC、MFCC和ZCPA,并对其优缺点进行了比较。同时,本文对人耳听觉模型进行了研究和对比,在原有的人耳听觉滤波器GT和GC滤波器的基础上,针对GT和GC滤波器频率选择特性不够尖锐的问题,提出了GT-4和GC-4滤波器;同时,针对Mel刻度不符合听觉特性中临界带宽的问题,将改进的滤波器按ERB刻度排列。随后将GT-4,GC-4滤波器与MFCC,ZCPA结合,获得了改进的MFCC、ZCPA特征提取方法。   最后,本文做了大量的验证实验,结果表明:在不同的声压级和不同信噪比的多种噪声环境下,所提算法性能较之MFCC均有不同程度的提高,随着声压级从40dB降到-20dB,MFCC的识别率降低了22.83%,而ERBCC-GC4和ZCPA-GC4分别只降低了2.60%和3.47%;随着信噪比从30dB降到0dB,MFCC的识别率降低了18.52%,而ERBCC-GC4和ZCPA-GC4分别只降低了6.55%和4.38%;特别是当信噪比为0dB时,ERBCC-GC4和ZCPA-GC4比MFCC的识别率分别高出16.28%和19.64%,体现出了较好的噪声鲁棒性。最后,本文在智能轮椅人机交互平台上进行了基于语音人机交互的控制实验,实验表明,智能轮椅能按照指定路线行走。  
其他文献
射频消融仪是近几十年内出现的一种新型的治疗肿瘤的仪器,特别是在治疗内脏肿瘤方面有突出的效果。射频消融技术是一种物理型治疗技术,主要是根据细胞受热死亡的原理来发挥治疗作用。在经过多年的研究和发展,以及在医学临床中的试验,射频消融技术已经越来越成熟。临床数据显示,该技术具有创伤性小,安全性高,治疗效果明显的特点,而且随着技术的发展,射频消融仪正向着小型化、智能化、低成本化的趋势发展,越来越不受环境因素
本文通过对荣华二采区10
期刊
本研究采用单一足底电击方式(电压36V,每次持续30s,间隔15s每次,共30次)建立急性应激动物模型;以7种应激方式(通宵照明、足底电击、禁食、冷水游泳、拥挤、高台、禁水,每天随机选用1
随着微波射频通信的快速发展,传输系统对相位和信号失真度等性能的要求逐渐提高,负群时延滤波器因其特殊的性能受到越来越多的关注。但是目前为止尚未形成关于负群时延滤波器
随着互联网的发展和计算机技术的成熟,使得网上购票成为可能。通过网上客运票务系统,售票点、客运站之间的票务信息实现了共享,消费者足不出户就可以买到自己需要的车票,解决了以
我是1992年由组织调动到浦东的张江高科技园区开发公司工作的.分管财务、招商引资、综合计划等工作.不过说实在话,那时的我对高科技园区怎么做是没有概念的.于是,我们这批张
期刊
蝗灾是一种世界性的灾害。近几年来,由于全球性气候变化、水热季节性分配失调,人类活动加剧等原因,加重了蝗灾的发生频率和严重程度。在我国“九五”期间,全国飞蝗[Locusta m