论文部分内容阅读
近年来,伴随着语音识别技术的迅猛发展,各种成熟的语音识别产品层出不穷,很大程度上改变了过去极不方便的人机接口模式,让许多过去操作复杂的电子设备变得容易使用,极大地推动了电子信息、计算机等多个相关领域的发展。然而在实际应用中,由于受到复杂外部环境以及使用者自身因素的影响和制约,比如背景噪音和方言口音等,语音识别技术的精确性和系统的鲁棒性也面临着严峻的挑战。如何在各种复杂环境下,提高语音识别系统对方言口音的自适应性是个世界范围内仍未被解决的难题。我国语音识别技术的发展起步较晚、基础薄弱,但发展十分迅速,在国家“863”计划的支持下,各类科研成果丰硕。然而,汉语言中方言种类繁多,包含八大方言语系共80多种不能互通的地区方言,客观地增加了汉语语音识别的难度。扬州方言属江淮官话语系,在苏中地区具有广泛的群众基础,具有一定的代表性,为解决方言语音识别问题提供了较高的参考价值。本文在国家语言文字应用“十一五”科研项目委托项目——江苏语言资源有声数据库建设子项目的资助下,着重对语音信号的预处理、特征参数提取以及识别算法进行了研究,并结合使用扬州方言有声数据库,构建了基于孤立字词的扬州方言语音识别系统,主要内容包括:(1)阐述了本文的选题背景和意义,语音识别技术的发展历史和现状,介绍了语音识别系统的构成、分类以及评价标准。(2)简述了语音信号的特性和产生原理,阐述了语音信号的预处理过程,着重分析了端点检测的步骤和方法,介绍了LPCC和MFCC这两种语音特征参数的计算和提取方法,在此基础上进一步引入了MFCC差分混合系数,并进行了仿真。(3)概述了世界范围内语音预料数据库的发展,简述了构建语音语料数据库的一般步骤,进而介绍了构建扬州方言有声数据库的过程。(4)分别介绍了DTW和HMM两种经典的语音识别算法,在阐述它们基本原理、算法实现、以及参数估计的基础上,分析了DTW算法的优缺点,提出了HMM算法的改进方案,以解决其实际计算过程中遇到的数据溢出等具体问题。在实验仿真阶段,采用扬州方言单字“1-10”为例,先用DTW算法进行特定人方言语音识别实验,而后采用HMM算法进行非特定人识别实验,并选取MFCC差分混合系数为特征参数,以获取更高的识别率。(5)介绍了基于HMM算法的扬州方言语音识别系统,阐述了分数低阶统计量以及非高斯信号处理的相关理论,并选取LMP算法对系统在非高斯噪声环境下进行优化。在实验仿真阶段,分别采用扬州方言数字“1-10”以及50个典型方言词汇进行测试,证明该系统具有较高的识别率,并且在非高斯噪声环境下具有一定的适应性。