论文部分内容阅读
随着噪声的增加,机器语音识别性能急剧恶化,而人类听觉系统的识别效果却是相对稳定的,这就启发了我们从仿生的角度来研究语音识别,而基于听觉特性的语音识别研究也是目前的研究热点和难点之一。因此,基于人耳听觉特性的语音识别人机交互具有非常重要的理论研究意义和较高的实际应用价值。
首先,对基于人耳听觉特性的语音识别原理进行了深入的理论研究,掌握了人耳语音接收过程的生理学和人耳听觉系统对语音信号的信号处理机制,总结了语音感知特性和噪声特性,并给出了典型的基于人耳听觉特性的语音识别系统,为以后的研究打下的扎实的理论基础。
接着,本文研究了基于语音分离的预处理。本文对传统基于端点检测和语音增强的预处理方法进行了研究,发现其只适用于较为简单的噪声(如:高斯白噪声)环境下,且随着信噪比的下降,语音识别系统的识别率直线下滑。因此,我们将基于人耳的听觉选择能力即“鸡尾酒会效应”的语音分离技术应用到前端,更有利于提高语音识别系统在多声源和复杂噪声环境下的识别性能。
然后,本文研究了基于入耳听觉特性的语音特征提取。本文阐述了几种常见的语音特征LPCC、MFCC和ZCPA,并对其优缺点进行了比较。同时,本文对人耳听觉模型进行了研究和对比,在原有的人耳听觉滤波器GT和GC滤波器的基础上,针对GT和GC滤波器频率选择特性不够尖锐的问题,提出了GT-4和GC-4滤波器;同时,针对Mel刻度不符合听觉特性中临界带宽的问题,将改进的滤波器按ERB刻度排列。随后将GT-4,GC-4滤波器与MFCC,ZCPA结合,获得了改进的MFCC、ZCPA特征提取方法。
最后,本文做了大量的验证实验,结果表明:在不同的声压级和不同信噪比的多种噪声环境下,所提算法性能较之MFCC均有不同程度的提高,随着声压级从40dB降到-20dB,MFCC的识别率降低了22.83%,而ERBCC-GC4和ZCPA-GC4分别只降低了2.60%和3.47%;随着信噪比从30dB降到0dB,MFCC的识别率降低了18.52%,而ERBCC-GC4和ZCPA-GC4分别只降低了6.55%和4.38%;特别是当信噪比为0dB时,ERBCC-GC4和ZCPA-GC4比MFCC的识别率分别高出16.28%和19.64%,体现出了较好的噪声鲁棒性。最后,本文在智能轮椅人机交互平台上进行了基于语音人机交互的控制实验,实验表明,智能轮椅能按照指定路线行走。