论文部分内容阅读
语音作为人与人之间最便捷的交流方式,关于其识别的研究一直是比较热门的话题,尤其是在深度学习流行起来之后,借助神经网络进行语音识别已经成为学术界和工业界的标配,也正是在深度学习的推动下,语音识别在智能家居、输入法、翻译机、语音控制等领域展现了强大的实用性。因此,能够设计出一套语音识别系统变得非常有必要。本文围绕深度神经网络对语音识别系统展开了相关研究。在声学模型部分,使用kaldi作为训练工具,提取40维的MFCC特征,用于基线模型训练。其中首先训练了单音素模型,然后通过决策树状态绑定,训练出三音素模型。通过识别结果验证了三音素结构要优于单音素结构,提升效果约14%;为了减少不同说话人对识别结果的影响,后续又对特征进行处理,如线性判别分析、说话人自适应等操作,最终的识别效果提升约8.4%;在基线模型的基础上,根据状态对齐信息,训练出深度神经网络,来为隐马尔科夫模型提供后验概率。识别结果验证了基于DNN-HMM的声学建模方法要优于传统的GMMHMM方法。最后,通过两个数据量不同的训练集对同一个网络模型进行训练,训练集大的识别结果要比训练集小的识别结果高出1.1%。在语言模型部分,首先使用SRILM语言模型训练工具分析了统计语言模型n-gram得分的计算过程,然后训练出了两个分支模型,并通过插值得到一个语言模型,最后通过识别结果分析分支模型和一个通用模型的优劣。通过对比发现,对于偏向于某一分支的语言模型的测试集来说,不插值的效果要好于插值效果。