基于深度神经网络的蒙古语语音识别系统声学模型的研究

来源 :内蒙古大学 | 被引量 : 5次 | 上传用户:youling0186
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是实现人机交互的重要手段,它的最终目的是让人与机器能够像人与人一样通过语音对话实现交流。在最近几年里,语音识别技术经历了巨大的变革,深度神经网络成功替代了高斯混合模型(GMM)成为声学建模的主流方法。不同的神经网络结构如深度神经网络(DNN)、卷积神经网络(CNN)以及长短时记忆神经网络(LSTM)等在声学模型上得到了广泛的研究。然而这些研究主要集中在英语,中文等使用人数较多的语言上,对于其它使用人数较少的语言来讲,语音识别技术研究仍然处于初级的研究阶段,其中蒙古语正是这样的一种语言。本文将DNN、时延神经网络(TDNN)、CNN,LSTM,前向序列记忆神经网络(FSMN)等神经网络结构用于蒙古语声学模型的建模,通过对比不同神经网络结构的声学模型来研究神经网络结构对蒙古语语音识别性能影响。同时为了进一步提升蒙古语声学模型的性能,本文还使用神经网络的区分性训练方法和添加说话人特征两种方式对模型进行了优化训练。实验结果表明,基于LSTM的声学模型在蒙古语语音识别系统中有最好的性能,但是LSTM由于结构复杂导致解码过程计算量大于其他结构,而FSMN在准确率和计算复杂度的均衡性能上要优于其他结构。同时使用区分性训练和添加说话人特征后,声学模型的性能有明显的提升。
其他文献
介绍了新加坡教育体系结构和职业技术教育特点,认为建立技能发展基金制度、完善职业资格证书与劳动就业准入制度、建设名副其实的“双师型”师资队伍、深化校企合作、加强我
采用蔗糖培养基,对梨枣等5个枣品种的花粉生活力进行测定,结果表明不同品种花粉生活力存在差异。以梨枣发芽率为最高,冬枣发芽率最低。梨枣单花不同发育时期以蕾黄期花粉生活力
随着经济全球化进程的加快,我国的高等教育也要跟上国际的步伐。本文从影响我国普通高校人才培养质量的内外因加以论述,从管理机制、管理水平,人才培养模式、教学管理制度和