论文部分内容阅读
语音识别是实现人机交互的重要手段,它的最终目的是让人与机器能够像人与人一样通过语音对话实现交流。在最近几年里,语音识别技术经历了巨大的变革,深度神经网络成功替代了高斯混合模型(GMM)成为声学建模的主流方法。不同的神经网络结构如深度神经网络(DNN)、卷积神经网络(CNN)以及长短时记忆神经网络(LSTM)等在声学模型上得到了广泛的研究。然而这些研究主要集中在英语,中文等使用人数较多的语言上,对于其它使用人数较少的语言来讲,语音识别技术研究仍然处于初级的研究阶段,其中蒙古语正是这样的一种语言。本文将DNN、时延神经网络(TDNN)、CNN,LSTM,前向序列记忆神经网络(FSMN)等神经网络结构用于蒙古语声学模型的建模,通过对比不同神经网络结构的声学模型来研究神经网络结构对蒙古语语音识别性能影响。同时为了进一步提升蒙古语声学模型的性能,本文还使用神经网络的区分性训练方法和添加说话人特征两种方式对模型进行了优化训练。实验结果表明,基于LSTM的声学模型在蒙古语语音识别系统中有最好的性能,但是LSTM由于结构复杂导致解码过程计算量大于其他结构,而FSMN在准确率和计算复杂度的均衡性能上要优于其他结构。同时使用区分性训练和添加说话人特征后,声学模型的性能有明显的提升。