论文部分内容阅读
关键词识别KWR是一种自动语音识别ASR技术,其目的是在自然语音流中检测和确认一组由特殊场合决定的特定词。随着自动语音识别技术的发展,关键词识别技术已经延伸到通讯、自动控制、人机交互和信息检索等诸多领域。现有关键词识别系统主要是基于PC机的,不符合片上系统SOC体积小和低功耗的要求,因此基于集成电路IC的关键词识别系统成为当前的研究热点。基于IC的语音识别系统主要通过DSP和FPGA两种途径来实现,由于我国没有高性能DSP的自主知识产权,因此从成本控制上考虑,拥有开发成本低、体积小和速度快等诸多优点的FPGA成为我国发展语音识别专用芯片的首选。目前,现有关键词识别系统中的许多软件算法很难用FPGA硬件电路来设计实现。本文在研究KWR基本原理及主流识别算法的基础上,通过研究分析离散隐马尔可夫模型(DHMM)和引入矢量量化(VQ)模块,研究设计了易于FPGA硬件电路实现的基于DHMM和VQ的关键词识别系统。本文主要工作内容如下:(1)分析了HMM基本原理,重点研究了前向-后向算法、模型参数重估Baum-Welch算法和最佳状态搜索Viterbi算法,并分析解决了多观察值序列的模型参数重估问题。(2)分析了语音信号预处理、端点检测和特征参数提取的基本原理及常用算法,重点研究实现了MFCC特征提取算法和设计实现了基于硬件电路实现的状态机法端点检测。(3)分析了现有KWR系统的基本结构,研究了离散化模型DHMM的训练算法,设计实现了易于FPGA硬件电路实现的基于DHMM的关键词识别系统。(4)为了保证系统的识别率和识别速度,在研究分析VQ矢量量化信号聚类原理、初始码书生成和最佳码书设计LBG算法的基础上,引入VQ矢量量化模块,设计实现了基于DHMM和VQ的关键词识别系统。(5)完成了大量的模型训练实验,仿真实现了所设计的2种关键词识别系统,检验了系统的识别性能,并对实验结果进行了统计、分析和比较。