论文部分内容阅读
语音识别技术随着互联网和其他移动终端性能的提升,越来越受到工业生产和日常生活的青睐,因此如何提供一个识别性能高,鲁棒性强的语音识别系统显得越来越重要。但是,自从语音识别技术应用在中文识别上,就有一个不能忽视的现象——口音问题,它在很大程度上降低了识别系统的性能,尤其是我国是一个多口音地区国家,口音问题,尤其是多口音问题,成为中文语音识别的一个关键问题。我国是个多口音地区国家,除了标准的普通话,还有其它七个主要方言——官话,吴,粤,湘,客家,闽以及赣。方言与标准普通话差异大,方言之间变化大。生活在这些方言地区的人们都是把普通话作为第二语言学习的,导致一个最直接的结果就是生活在这些地区的人们,在用普通话进行表达的时候,会存在很大程度上的口音变化。结果就是当前在标准普通话数据上训练的模型并不能针对特定方言的语音识别。带口音的普通话语音识别的困难主要体现在两个方面,因为我国多口音现象的存在产生了不同口音地区发音的变异带来的模型不匹配问题,同时导致了训练口音相关模型和难以获得大批量的不同口音地区的语音语料数据的矛盾。本文采用口音分类和提升特定口音声学模型性能相结合的方法,针对这两个主要问题,不仅能够为地区未知的带口音普通话测试数据选择合适的声学模型,解决模型不匹配的问题,同时通过多层级适应性的网络(MLAN)提升特定口音的模型识别能力,能够进一步更好地解决多口音问题中的模型不匹配以及特定口音数据稀疏导致的的建模难题,进而提高识别率。论文介绍的MLAN系统充分利用了神经网络的区分性学习能力和交叉数据域的适应能力,通过第一级网络,将更大数据量的标准普通话数据和特定方言口音数据的共性适应性地被提取,再由第一级网络前馈特定口音数据训练第二级网络,并对标准普通话数据前馈,使得标准普通话数据被适应上了特定口音的个性特征。这种架构不但提升了特定口音数据的共性表现能力,也对大量的标准普通话数据进行了个性化的适应,极大地增加了含有特定方言口音特征的训练数据。目前在广州、重庆地区数据上的实验表明:在基线GMM-HMM系统模型的基础上本文提出的改进系统所带来的相对CER下降分别为23.03%和21.21%,性能提升效果相当明显。很好地验证了对口音未知测试数据进行口音分类的必要性和MLAN框架的优越性。本文提出这种系统架构具有很好的扩展性和适应性,除了能很好的应对多种口音的语音识别问题,同时也适合更加复杂交叉领域和更加细致分类的情形,比如多种语言,复杂噪声条件等。