论文部分内容阅读
语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,近年来,计算机语音识别的应用有了长足的进展,基于英语的特殊地位,世界上对于英语作为第一语言的语音数据库的设计和制作已经很多。但由于英语的日益普及,以英语作为第二语言的人们越来越多,因此建立一个以英语作为第二语言的语音数据库是很有必要的。不同的国家,有不同的语言,其发音都有各自的特点,从而影响了作为第二语言的英语发音也出现了不同的特色。我们这里主要考虑在中国地区,设计与制作以英语作为第二语言的语音数据库,并对该数据库在构建的HTK语音识别系统中进行了一系列的测试。本文所做工作及创新有以下:1、在Linux环境下,构建了HTK语音识别系统。2、我们对特征参数做了一些研究改进:在识别系统中采用能够反映人对语音的感知特征的美尔频率倒谱系数(MFCC)作为特征参数,将语音信号的动态特征(瞬变特征)也加以考虑,实验证明这种增加混合特征参数的方法,能使系统的识别率有显著的提高。比较了各种参数的识别率,得到了识别效果最佳时的特征参数。3、在模型训练时,采用了隐马尔可夫模型,实验测试了不同的状态数,得到了为10将达到最好的识别效果。4、对语音数据库进行了设计、制作及训练模型过程,实验测试(参数取前面实验的结论)标准语音库的数据(采用AVICAR现有的数据库)和收集的语音库数据,进行了比较。发现收集的语音数据的识别率大大低于标准语音数据的识别率,得出收集不同地域语音数据库重要性的结论。分析了识别率低的原因;然后对收集的语音库中的数据根据不同的地域进行相互比较,总结识别率差异的原因,为设计制作语音库提供了借鉴的经验。5、对训练的模型进行了改进:将TIDIGIT中的中国人语音数据挑选出来,加入一次、两次、三次到AVICAR中的数据中一起训练模型,再对进行识别的测试比较,分析结果得到,识别率有所提高,由此可见,利用针对地域性强的模型进行语音识别,将大大提高识别效果。