基于DHMM和VQ的关键词识别研究与实现

来源 :武汉理工大学 | 被引量 : 4次 | 上传用户:ihuangda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词识别KWR是一种自动语音识别ASR技术,其目的是在自然语音流中检测和确认一组由特殊场合决定的特定词。随着自动语音识别技术的发展,关键词识别技术已经延伸到通讯、自动控制、人机交互和信息检索等诸多领域。现有关键词识别系统主要是基于PC机的,不符合片上系统SOC体积小和低功耗的要求,因此基于集成电路IC的关键词识别系统成为当前的研究热点。基于IC的语音识别系统主要通过DSP和FPGA两种途径来实现,由于我国没有高性能DSP的自主知识产权,因此从成本控制上考虑,拥有开发成本低、体积小和速度快等诸多优点的FPGA成为我国发展语音识别专用芯片的首选。目前,现有关键词识别系统中的许多软件算法很难用FPGA硬件电路来设计实现。本文在研究KWR基本原理及主流识别算法的基础上,通过研究分析离散隐马尔可夫模型(DHMM)和引入矢量量化(VQ)模块,研究设计了易于FPGA硬件电路实现的基于DHMM和VQ的关键词识别系统。本文主要工作内容如下:(1)分析了HMM基本原理,重点研究了前向-后向算法、模型参数重估Baum-Welch算法和最佳状态搜索Viterbi算法,并分析解决了多观察值序列的模型参数重估问题。(2)分析了语音信号预处理、端点检测和特征参数提取的基本原理及常用算法,重点研究实现了MFCC特征提取算法和设计实现了基于硬件电路实现的状态机法端点检测。(3)分析了现有KWR系统的基本结构,研究了离散化模型DHMM的训练算法,设计实现了易于FPGA硬件电路实现的基于DHMM的关键词识别系统。(4)为了保证系统的识别率和识别速度,在研究分析VQ矢量量化信号聚类原理、初始码书生成和最佳码书设计LBG算法的基础上,引入VQ矢量量化模块,设计实现了基于DHMM和VQ的关键词识别系统。(5)完成了大量的模型训练实验,仿真实现了所设计的2种关键词识别系统,检验了系统的识别性能,并对实验结果进行了统计、分析和比较。
其他文献
近几年,随着车辆数量的急剧增加,交通事故频繁发生,严重威胁到了人们的生命财产安全。如何有效地分析和检索监控视频中运动车辆成了交通监控领域的一个迫切需要解决的问题。
近年来,数字信号处理理论不断取得进步,集成电路技术日新月异,半导体技术突飞猛进等因素,促使数字信号处理器(DSP)也获得了飞速发展。视频信号处理的特点是数据量大,这就对视
2003年,联合视频工作组(JVT)制定并公布了H.264视频编码标准,该标准和以往标准相比,压缩效率更高,网络适应性更好,更快地推动了视频技术在广播电视网、Internet和移动网络上
IDMA是一种新兴的无线接入技术,其具有独特的优势。已成为第四代移动通信(4G)的热门候选标准之一,近年来成为研究热点。在IDMA技术的各项研究当中,上行同步技术为研究难点之
认知无线电网络通过动态的频谱接入技术为无线用户提供了高带宽,已经成为下一代无线网络研究的热点。频谱检测和分配是保证认知无线电网络得以实现的两个关键技术。本文在分
由于IPv6丰富的地址资源、内在的安全性和移动性,IPv6必将取代IPv4成为下一代网络互联协议。而Ad Hoc网络以其组网灵活性,分布式控制的优势在很多环境下被应用。将移动IPv6以
随着通信技术的进步,人们对网络接入便利化的要求也越来越高,越来越多的人开始选择使用无线方式接入网络,多业务的接入意味着对无线网络业务的服务质量提出了更高的要求。因
基于视觉的位姿测量是当前计算机视觉中的研究热点,而基于光学传感器的位姿测量方法因为无需接触目标就能直接获取目标位姿信息,在国防、航天航空、工业、医学等各个领域得到
交织多址(IDMA)是一种新兴的多址接入方式,它利用随机产生的交织器作为区分不同用户的唯一标识,对不同的用户使用不同的交织图案。作为码分多址(CDMA)的一种特例,IDMA系统继
气液两相流是工业领域中一种常见的流动形态。作为气液两相流的一种,湿气广泛存在于石油、化工、能源等各个行业,因此湿气流量井口计量也变得日益重要。为此我们研究了湿气流