论文部分内容阅读
语音是实现人们之间沟通交流的最直接与最方便的手段,而如何去实现计算机与人之间畅通无阻的语音交流,一直都是人们去追寻的一个梦想,语音识别则是实现这一梦想的关键性技术。随着人们对身份鉴别和安全的要求越来越高,生物认证技术以其独特的优势,日益体现出它的价值。与其他的生物认证技术一样,声纹识别有不会遗失、无须记忆和使用方便等优点。同时,声纹识别也有自己独特的优势,首先是以声音作为识别的特征,非接触和自然性是用户容易接受的重要原因;其次,声纹识别所用的设备成本很低,由于电话网络和麦克风、计算机的一体化,可以说所需要的硬件成本几乎为零;对于远程应用和移动互联的环境,目前来看,声纹识别很有可能是唯一的解决方案,说话人识别技术日益成为人们日常生活和工作中重要且普及的安全验证方式。尽管声纹识别的研究有半个世纪之久,但现有的声纹系统仍然存在许多问题,达不到社会对它的实用化的要求。从本质上来说,说话人识别技术大体上可以分为特征提取和识别模型两部分。因此,从某种意义上来说,问题的根源都可以归结为由特征提取或者识别模型的局限性引起的。如何寻求新的更具个性特征表现力,拥有更强鲁棒性的语音特征,或者对现有特征进行优化的选择、融合、补偿等方法来增强现有系统的性能。本文提出了一种基于遗传优化RBF神经网络的声纹识别算法,该算法中采用遗传算法对传统的RBF神经网络基函数中心以及宽度进行优化处理,克服了传统RBF神经网络参数难以确定的缺陷。同时,本算法结合生理声学模型,提取了能表现说话人个性特征的Mel倒谱系数MFCC为特征进行说话人识别,这样较好地提升了整个系统的抗噪性能。通过仿真实验我们不难看出,与传统RBF神经网络相比,该方法具有快速学习网络权重的能力,并且网络的全局寻优能力强,使得整个系统的识别率得到了进一步提高。