论文部分内容阅读
随着移动互联网和硬件设备的迅速发展,音频数据的积累呈现爆炸性的增长。如何利用这些数据准确的查找到用户关心的信息,成为了研究者感兴趣的问题。随着深度神经网络的普及,汉语中常见词汇的识别与检索的效果已经达到了实用的水平,但一些不在识别词典中并与时代发展息息相关的词汇,如人名、地名等非常见词,往往更是人们关心的检索对象。本文主要研究如何在没有先验信息的条件下,提高非常见词检索性能的方法。另一方面,现在的声学建模过程较为复杂,特别是隐马尔可夫模型和高斯混合模型的建模步骤较为复杂而在识别中作用又较小,本文对基于Connectionist TemporalClassification(CTC)准则的端到端语音识别系统进行了研究,以提高该系统的识别性能,并在此框架下,进行语音关键词检索。论文主要的工作内容和创新点如下: 1.提出了结合字和词双层语言模型的解码算法。借鉴类语言模型的思想,在词级语言模型检测非常见词可能出现的位置,在字级语言模型给出非常见词可能的拼写形式,并使用子图动态加载到主图的形式在解码器中实现。实验结果表明,在非常见词检索上,该方法可以取得相对10%以上的性能提升。 2.提出了在一遍解码中使用前向神经网络语言模型的方法以提高非常见词检索性能。前向神经网络语言模型具有更好的泛化能力,可以对组成非常见词的字词组合提供更为准确的语言模型概率估计。为了降低前向神经网络语言模型前向计算的复杂度,使用Noise-contrastiveEstimation(NCE)准则训练模型,通过避免在输出层做概率规整提高计算速度,从而使得在一遍解码中应用前向神经网络语言模型变得较为实用。实验结果表明,在一遍解码中应用前向神经网络语言模型可以同时提升常见词与非常见词的检索性能。 3.根据CTC准则的特点,提出了使用自适应学习率的训练方法以提高基于CTC准则的端到端语音识别系统的识别性能。使用自适应学习率的方法可以抑制blank符号对网络权值更新的影响,以提高其他音素的作用。实验结果表明,相比于冲量(Momentum)的方法,使用AdaDelta方法在词错误率上可以取得6.6%的相对降低,同时加速网络训练的收敛速度。 4.研究了在CTC准则框架下的语音关键词检索,提出了一种由词网格生成对齐的音素网格的方法,并进行了位置相关的blank符号的建模实验。实验结果表明,在相同解码参数配置下,基于CTC准则的语音关键词检索性能优于传统的DNN-HMM混合建模的方法,在时间点估计上的误差在当前评价指标上是可以容忍的;blank符号位置相关建模的性能变差,也佐证了blank符号在训练中主要起到辅助对齐的作用。