鲁棒语音识别中的模型自适应算法研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:a499262792
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别在实验室环境中识别性能很高,但是走向实用化的过程中,由于语音本身的变异性以及外部噪声的影响,导致在环境变化时,语音识别系统的性能严重下降。因此,研究能够适应不同环境的鲁棒性语音识别技术具有极其重要的意义。  本文主要研究了鲁棒语音识别中的模型自适应算法,重点研究了基于最大似然线性回归(MLLR: Maximum Likelihood Linear Regression)的模型自适应算法以及基于矢量泰勒级数(VTS: Vector Taylor Series)的模型自适应算法。主要工作内容总结如下:  首先研究了基于MLLR的模型自适应算法,在线性假设的基础上,分别给出了均值变换矩阵与方差变换矩阵的估计方法。并且进行了基于MATLAB的仿真实验,采用实验室录制的中文语音库,在不同噪声环境下,通过改变信噪比以及自适应数据个数,测试不同条件下系统的误识率。实验结果表明,MLLR算法依赖于自适应数据的数量,且在低信噪比条件下效果较好。  接着研究了基于VTS的模型自适应算法,首先推导出了模型参数的矢量泰勒级数关系式,然后分别给出了噪声环境下模型参数的均值与方差的估计方法。将VTS算法与MLLR算法的实验结果进行对比可以发现,VTS算法不依赖于自适应数据的数量,且在低信噪比条件下,识别性能优于MLLR算法,但是MLLR算法相比VTS算法,具有计算量小、复杂度低、易于实现等优点,两种算法各有优缺点。  最后,本文用C语言实现了鲁棒语音识别系统,为了尽可能提高系统的识别性能,采用了基于VTS的模型自适应算法。系统可以实现非特定人孤立词语音识别,在信噪比为15dB时,识别率达到90%,在信噪比为0dB时,识别率达到65%,模型更新完成后识别时间在0.3s以内,系统运行时间和识别率都达到了预期要求。
其他文献
学位
H.264/AVC是在以往的视频编码标准的基础上发展起来的最新的也是编码效率最高的视频编码标准。H.264/AVC可以抽象成为两个层次:VCL层和NAL层,前者主要用于提高视频编码的效率,而
在简要介绍了软件无线电和跳频通信原理的基础上,着重研究了高速跳频通信系统中的数字下变频、相关和跳频序列产生技术,提出了适合于在FPGA中实现的设计方案,并在实际系统中
国际视频编码标准从开始制定到现在,已经有十几年的历史了。其中,国际电信联盟ITU-T组织制订的标准主要包括:H.261、H.263、H.263+和H.263++等;国际标准化组织ISO制定的标准主要
在无线通信中,当移动台由于尺寸或其他的约束条件不能支持多元天线时,常规的空时编码就不能被用于提供上行链路的传输分集。为了解决此问题,提出了多用户合作分集的概念,移动
随着Internet的高速增长以及实时业务和多媒体业务在网络中的应用不断增加,从应用层出发对网络带宽、服务质量,可扩展性以及对新业务的适应性方面的要求日益升高,原有的IP QoS机