论文部分内容阅读
本文对说话人识别方法应用作了较深入系统的研究。采用的方法分别是矢量量化(VQ)识别方法、隐马尔可夫模型(HMM)识别方法、高斯混合模型(GMM)识别方法。基于独立文本和闭集条件,在实验室环境下,对26位说话人进行语音采集和识别,识别率均为100%。在特征提取方面,分别以16阶LPC倒谱系数、12阶MEL频率倒谱系数和12阶LPC倒谱系数、基音周期与短时归一化帧能量形成的混合参数进行实验,均得到了较好的实验结果。对VQ识别中的LBG聚类算法分别以两种不同码字选择方法实现,实验结果证实它们均优于随机码字选择方法;同时改进了空包腔处理方法。对HMM,系统采用5状态、32混合数各态历经的连续模型实现,状态分割是基于归一化帧能量实现。对GMM,系统采用32混合数连续正交高斯密度函数实现,参数初始化采用LBG聚类方法实现。为提高系统的响应速度、改善系统性能,实验还对短时帧长进行比较,发现不同帧长对系统性能的影响较大。由于通常情况下短时语音处理技术认为语音帧长在10~30ms左右,文中在采样频率为11.025KHz条件下,既考虑到短时限制,又考虑到系统响应速度,取帧长为512点(约46ms)得到了较好的实验效果。该说话人系统在VC++6.0环境下用音频底层处理函数实现音频操作,能设置不同语音采样频率,对语音进行实时播放、动态波形显示和有用信号剪辑等同步处理功能。系统还支持数据库语音查询功能。虽然该系统是在闭集条件下进行独立文本的说话人识别,但是系统具有较好可扩充性,只要进行相关的实验和程序改进,即可实现开集条件下的说话人确认与辨认。