论文部分内容阅读
语音识别技术作为人机交互的一部分,对于实现机器智能化至关重要。将机器人作为民用飞机的副驾驶是民航业未来重大突破和创新的方向,语音识别技术应用在机器人副驾驶上可以使机长的命令直接送达副驾驶程序中,使得机长和机器人副驾驶配合成为可能。语音库是实现语音识别的基础,目前研究学者们在做关于中文语音识别所用到的语料库大多是清华大学所公开的,但是该语音库不适合特定的研究方向。当下语音识别方式分为传统语音识别方式和端到端的语音识别方式,传统语音识别方式发展成熟,识别效果好,但是程序太过繁琐。针对以上背景,本论文以A320机型驾驶舱的监控飞行员与把杆飞行员之间的标准喊话为基准,建立了标准喊话语音库,然后应用端到端的语音识别方法——基于CTC的语音识别方法搭建识别模型。论文首先对机器人作为飞机副驾驶需要经历的过程、传统语音识别方式和端到端的语音识别方式的原理及过程、循环神经网络和语音库进行了详细的总结与阐述。其次建立了标准喊话语音库,语音库特征为:包含22条标准喊话,并将22条标准喊话分成了六组,录制语言为普通话,录制语音库的样本人数为150人,全部来自于中国民用航空飞行学院,他们具有民航专业背景,并且普通话非常标准,年龄在22岁到32岁之间。语音信息容量是1800条,拥有较高的泛化能力。针对飞机飞行过程中驾驶舱的噪音,进行语音增强。采用主观评价方法对谱减法和基于对数的最小均方误差(MMSE-LSA)方法的语音增强效果进行判断,决定采用MMSE-LSA方法降噪。再次建立了基于CTC的长短时记忆循环神经网络(LSTM)语音识别系统。该系统有效的抑制简单循环神经网络在模型训练过程出现的梯度消失和梯度爆炸现象,该神经网络语音识别系统在训练和测试方面对于标准喊话基本可行,但是错误率比较高,训练的错误率是31%,测试的错误率是45%。论文最后针对上述现象对模型进行了优化,采用两种方法,即基于CTC的Bi-LSTM循环神经网络语音识别模型和基于CTC的Bi-GRU循环神经网络语音识别模型,两种优化模型对于训练和测试的错误率都有相应的降低,尤其是基于CTC的Bi-LSTM循环神经网络语音识别模型,训练的错误率降到1.2%,测试的错误率降到3.2%,最终采用该种语音识别模型作为实际应用的人工智能副驾驶的语音识别系统。