论文部分内容阅读
语音作为人类最为基础的信息交流媒介,一直以来都是工业界与学术界研究的重点,本文主要针对语音分离与语音识别问题进行研究。其一,由于现实环境中语音环境复杂,语音的可懂度受到较大干扰。语音分离技术是解决此问题最常用的方法之一,目前的语音分离技术存在语音信号表征不充分、难以从混合语音中学习到有用信息等问题;其二,语音识别技术的目标为将语音信号识别为对应的文本序列。然而,许多系统只需要检测出其中的关键词即可,这种技术称为关键词识别技术。目前,随着深度学习的兴起,基于深度学习的关键词识别模型多为按帧标注方法,需要较为成熟的大规模连续语音识别系统对训练样本进行按帧标注,该类模型先决条件较为苛刻,且不灵活。针对语音分离与关键词识别目前研究存在的问题,本文的研究内容主要包括以下两方面的内容:1.针对于语音分离存在的语音信号表征不充分、难以从混合语音中学习到有用信息的问题,本文提出深层转导式非负矩阵分解(DTNMF)方法,在非负矩阵分解(NMF)的基础上,引入了全新的深层结构,这种深层结构可以非线性地表征语音信号,并引入了转导式学习的思想,即在识别时联合训练数据与测试数据生成字典,因此同时利用了混合语音信号的纯语音信号,从而使得本方法能够更好地从其他类似的混合语音中分离出各个声源的纯语音信号。实验为在不同信号比下的两说话人的语音分离实验,实验结果表明,DTNMF能够有效地从混合语音中还原出各说话人的语音信号,并能够更有效地减少其他说话人的污染,由此得到比转导式非负矩阵分解和非负矩阵分解更好的语音分离效果。2.针对按帧标注的关键词识别模型存在的问题,本文提出了一种基于联结主义时序分类器的关键词识别方法,该方法是端到端的神经网络结构,输出层为CTC层,可以有效地识别序列信息。本文采用多层双向长短时记忆神经网络模型,该类网络结构能够保存双向的、长距离的上下文信息,并在一定程度上解决了梯度消失与梯度爆炸的问题。在该模型的基础上,本文提出了剪裁关键词识别模型输出空间的改进方法,提高了模型的收敛速度,缩小了搜索空间,降低了模型的复杂度;同时,也避免了维度灾难的问题。实验结果表明,在相同训练集与测试集的情况下,本文所提出模型的关键词识别效果优于传统的按帧标注方法;本文所使用的BiLSTM网络结构有效地提高了所提出模型的关键词识别效果。