论文部分内容阅读
声调——汉语普通话最重要的信息,随着汉语语音识别技术的进一步发展,声调识别研究成为汉语语音识别技术突破的主要方向。而体现声调的最主要的特征就是声调的基频FO,有效的利用声调信息,必须对基频FO进行准确的提取与分析。为此,本文主要从基频提取以及基频后处理、声调识别建模、声调评估三方面对汉语普通话声调识别和评估系统进行了设计。首先,本文从声调特征基频FO的提取着手,采用短时自相关法进行汉语声调基频提取,由于基频提取中不可避免的会出现错误点,对提取后的基频进行后处理是必要的。基于此,本文采用了插值平滑和重采样处理获得用于识别模型的标准基频信息,并且改进了一种归一化方法(m LD算法),以便将其更好地应用于非特定人识别。依据语料样本库,给出了算法的实验结果并验证了算法的有效性。然后,在提取基频信息的基础上,论文详细地分析了基频信息的特点以及其总体分布情况,得出其总体分布满足亚高斯性的结论。这为声调识别模型的建立提供了很好的理论基础。在这种理论基础的支持下,建立了声调识别模型——GMM模型,并将模型在标准语音库863语料样本下进行了实验分析,给出了分析结果。接下来,基于GMM模型的声调识别结果,论文建立了汉语声调评估模型——基于GMM的后验概率评估模型,并给出了几种不同的打分方法。这种评估模型的建立,很好地融合了声调基频特征和声调识别结果。并就此应用了用于衡量汉语声调评估优劣的两个指标:相关系数和分级错误率进行评判。结合100位大学生语音语料和9位语言专家的打分情况,给出了对应指标下的结果。对结果分析得出如下结论:本文采用的基频提取算法、后处理算法、声调识别模型和声调评估模型在应用到汉语普通话声调评估系统中能取得较好的效果,为汉语普通话考核的推广和普及奠定了重要基础。最后,对本文的主要工作提出了不足之处,并对其进行了总结和展望。