论文部分内容阅读
依托于计算机技术的发展,语音识别技术的研究已经转向连续语音、中大字表、非特定人语音识别等领域,并逐步走向实用。然而实验室中“有效的”语音识别系统在鲁棒性(Robustness)、灵活性、自适应性方面远不能满足实际应用的需要,特别是当前语音识别技术中三大难点之一的噪音问题是阻碍实际应用的关键。作为香港理工大学合作研究项目“Study of Control Technology for Building Services Based on the Recognition of the Multimedia Systems”的前端部分,本文的研究将主要从语音信号的特征提取和语音增强处理方面提高识别的抗噪性。 针对原课题定位于一般的家用计算机处理设备和噪声环境下的非特定人、小词汇量、孤立词语音识别要求,本文以成熟的DTW和HMM两种识别方法为基础,分析了传统的利用掩蔽特性进行语音识别的方法特点,基于mel频率和bark频率的对应关系对MFCC的提取方法进行了改进,通过对系数的一阶方差做倒谱归一化(CMN)处理,使其在噪声环境下提高了识别率。 其次将基于一般自回归条件异方差原理,能有效描述金融市场波动性的GARCH模型引入语音识别的前端处理,利用其良好的时变方差和处理能力,将GARCH类模型在时域内对条件方差进行建模,通过改善先验信噪估计的方法提高了语音识别的效果,进而通过数值实验验证了所做探讨的合理性。