论文部分内容阅读
语音信号包含信息丰富并且使用便捷,是日常交流最常用的方式。语音交互利用语音交流形成人与机器交互的新方式,使得机器使用更为便捷。语音识别是语音交互中最基础、最核心的环节,良好的识别准确率是准确交互的保证。随着应用场景复杂度的提升,传统的语音识别方法对大数据语料的建模能力不足。深度学习处理大数据问题效果显著,将其用于语音识别,能够提升对海量语音的识别准确率。基于深度学习构建语音识别算法,同时对语音用于交互中命令的执行作出研究。传统语音识别系统中GMM-HMM声学模型属于浅层模型,当语音语料库增大时,其建模能力不足。深度学习模型包含了多层非线性计算,能够更好的拟合非线性函数。构建DNN-HMM声学模型能够提升识别准确率,训练模型,最终基于DNN-HMM的识别系统拥有较高的识别准确率。训练声学模型需要对语音帧进行标注,此步骤工作量繁多且需要专家经验,不能满足海量数据的需求。使用循环神经网络处理语音序列信号,结合CTC层作为模型的输出层,构成LSTM-CTC模型,能够利用语音序列中的依赖关系,并且输出不再需要人工标注。实践发现多层LSTM网络训练计算量大,训练时间长,不易收敛。参照生成模型提取分布特征的特点,结合语音信息包含的序列特征,提出了基于生成模型和CTC相结合的语音识别模型。语音交互中准确的从语音信息中提取命令指令并执行操作,是语音交互系统性能的重要指标。研究关键字提取算法完成从文本提取命令,研究对比分析了4种关键字提取算法,RAKE算法能够简洁有效的完成关键字提取。研究基于TensorFlow构建生成模型和CTC相结合的识别模型,最终模型测试的识别词错误率为7.16%,比较接近人类水平的4.58%。研究通过代码实现将算法用于简易小车控制台的语音交互中,结果表明,算法能够准确的分析短语指令,通过接口函数执行相应的操作。