基于神经网络的多方言口音汉语语音识别系统研究

来源 :中国科学院深圳先进技术研究院 | 被引量 : 10次 | 上传用户:bigrobbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术随着互联网和其他移动终端性能的提升,越来越受到工业生产和日常生活的青睐,因此如何提供一个识别性能高,鲁棒性强的语音识别系统显得越来越重要。但是,自从语音识别技术应用在中文识别上,就有一个不能忽视的现象——口音问题,它在很大程度上降低了识别系统的性能,尤其是我国是一个多口音地区国家,口音问题,尤其是多口音问题,成为中文语音识别的一个关键问题。我国是个多口音地区国家,除了标准的普通话,还有其它七个主要方言——官话,吴,粤,湘,客家,闽以及赣。方言与标准普通话差异大,方言之间变化大。生活在这些方言地区的人们都是把普通话作为第二语言学习的,导致一个最直接的结果就是生活在这些地区的人们,在用普通话进行表达的时候,会存在很大程度上的口音变化。结果就是当前在标准普通话数据上训练的模型并不能针对特定方言的语音识别。带口音的普通话语音识别的困难主要体现在两个方面,因为我国多口音现象的存在产生了不同口音地区发音的变异带来的模型不匹配问题,同时导致了训练口音相关模型和难以获得大批量的不同口音地区的语音语料数据的矛盾。本文采用口音分类和提升特定口音声学模型性能相结合的方法,针对这两个主要问题,不仅能够为地区未知的带口音普通话测试数据选择合适的声学模型,解决模型不匹配的问题,同时通过多层级适应性的网络(MLAN)提升特定口音的模型识别能力,能够进一步更好地解决多口音问题中的模型不匹配以及特定口音数据稀疏导致的的建模难题,进而提高识别率。论文介绍的MLAN系统充分利用了神经网络的区分性学习能力和交叉数据域的适应能力,通过第一级网络,将更大数据量的标准普通话数据和特定方言口音数据的共性适应性地被提取,再由第一级网络前馈特定口音数据训练第二级网络,并对标准普通话数据前馈,使得标准普通话数据被适应上了特定口音的个性特征。这种架构不但提升了特定口音数据的共性表现能力,也对大量的标准普通话数据进行了个性化的适应,极大地增加了含有特定方言口音特征的训练数据。目前在广州、重庆地区数据上的实验表明:在基线GMM-HMM系统模型的基础上本文提出的改进系统所带来的相对CER下降分别为23.03%和21.21%,性能提升效果相当明显。很好地验证了对口音未知测试数据进行口音分类的必要性和MLAN框架的优越性。本文提出这种系统架构具有很好的扩展性和适应性,除了能很好的应对多种口音的语音识别问题,同时也适合更加复杂交叉领域和更加细致分类的情形,比如多种语言,复杂噪声条件等。
其他文献
为寻求π(x)的表达式,我们已经有了连续函数逼近法,也即为素数定理。但由于函数类型的差异,这种逼近效果有其内在的缺陷。为此,本文来介绍与π(x)类型相同的P(x),并用P(x)去
长庆油田数字化生产指挥系统是:集油气集输、安全环保、重点作业现场监控、应急抢险、辅助生产保障为同一平台的运行指挥系统。主要负责对数字化前端传来的实时数据进行汇总
为了解雷达站官兵的心理健康状况及心理健康状况与应对方式的关系,采用90项症状自评量表和应对方式问卷对某部7个雷达站169名官兵进行测试,并与军人常模和地方常模进行了对比
目的探讨"理气和胃法"治疗胃脘痛的临床疗效以及对患者的生活质量,临床常见症状(发)改善情况,探讨其作用机制。方法回顾性分析我院自2014年1月至2014年12月接受治疗的符合研
随着国家社会主义现代化建设步伐的逐渐加快,建筑工程领域面临着前所未有的发展机遇和挑战,同时建筑工程的行业竞争越来越激烈,所以建筑企业要想在残酷的市场竞争中占据一席
下硐电站建成已50多年,由于大坝部分坝段混凝土施工存在质量缺陷,加之泄洪破坏,造成局部溢流面冲磨剥蚀破坏较为严重。本文以下硐溢流面修复为例,介绍了新型环氧类材料在大坝
大学生的人身安全、财产安全、心理健康以及应对危机的意识和能力,成为衡量高校学生教育管理水平的重要指标。我们立足大学生的特点,从高校校园危机认知和应对等诸多要素,对
<正>它,是一本企业志,记录了一家外贸公司32年的成长轨迹、发展历程;它,又是一本时代卷册,折射了中国外贸发展史的风云变幻、消长得失。
教育乃一广泛概念,涉及内地传统教育和地区本土传统教育(如家庭教育、村寨教育、社会传统教育等)诸方面,本文所言黔东南教育乃是专注内地传统教育在黔东南地区的传播和影响。
<正> 先知在朝觐期间主麻日(星期五)的另一次演说中重复了上次讲话的一些要点,并总结了伊斯兰教的五项宗教功课(即“五功”),又在第二天的讲话中,提出他的讲话的主要线索,加