汉语语音非常见词检索和端到端的语音识别研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：yhymoon0527

【摘要】

：

随着移动互联网和硬件设备的迅速发展，音频数据的积累呈现爆炸性的增长。如何利用这些数据准确的查找到用户关心的信息，成为了研究者感兴趣的问题。随着深度神经网络的普及，汉语

【作者】

：

王旭阳

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2016年期

【关键词】

：

端到端非常见词检索语音识别音素网格神经网络动态解码器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着移动互联网和硬件设备的迅速发展，音频数据的积累呈现爆炸性的增长。如何利用这些数据准确的查找到用户关心的信息，成为了研究者感兴趣的问题。随着深度神经网络的普及，汉语中常见词汇的识别与检索的效果已经达到了实用的水平，但一些不在识别词典中并与时代发展息息相关的词汇，如人名、地名等非常见词，往往更是人们关心的检索对象。本文主要研究如何在没有先验信息的条件下，提高非常见词检索性能的方法。另一方面，现在的声学建模过程较为复杂，特别是隐马尔可夫模型和高斯混合模型的建模步骤较为复杂而在识别中作用又较小，本文对基于Connectionist TemporalClassification(CTC)准则的端到端语音识别系统进行了研究，以提高该系统的识别性能，并在此框架下，进行语音关键词检索。论文主要的工作内容和创新点如下:　　1.提出了结合字和词双层语言模型的解码算法。借鉴类语言模型的思想，在词级语言模型检测非常见词可能出现的位置，在字级语言模型给出非常见词可能的拼写形式，并使用子图动态加载到主图的形式在解码器中实现。实验结果表明，在非常见词检索上，该方法可以取得相对10％以上的性能提升。　　2.提出了在一遍解码中使用前向神经网络语言模型的方法以提高非常见词检索性能。前向神经网络语言模型具有更好的泛化能力，可以对组成非常见词的字词组合提供更为准确的语言模型概率估计。为了降低前向神经网络语言模型前向计算的复杂度，使用Noise-contrastiveEstimation(NCE)准则训练模型，通过避免在输出层做概率规整提高计算速度，从而使得在一遍解码中应用前向神经网络语言模型变得较为实用。实验结果表明，在一遍解码中应用前向神经网络语言模型可以同时提升常见词与非常见词的检索性能。　　3.根据CTC准则的特点，提出了使用自适应学习率的训练方法以提高基于CTC准则的端到端语音识别系统的识别性能。使用自适应学习率的方法可以抑制blank符号对网络权值更新的影响，以提高其他音素的作用。实验结果表明，相比于冲量(Momentum)的方法，使用AdaDelta方法在词错误率上可以取得6.6％的相对降低，同时加速网络训练的收敛速度。　　4.研究了在CTC准则框架下的语音关键词检索，提出了一种由词网格生成对齐的音素网格的方法，并进行了位置相关的blank符号的建模实验。实验结果表明，在相同解码参数配置下，基于CTC准则的语音关键词检索性能优于传统的DNN-HMM混合建模的方法，在时间点估计上的误差在当前评价指标上是可以容忍的;blank符号位置相关建模的性能变差，也佐证了blank符号在训练中主要起到辅助对齐的作用。

其他文献

九段沙湿地自然保护区大型底栖动物生态学研究

河口湿地是海洋、淡水、陆地间的一种过渡区域，是自然保护和全球变化研究的重要对象。长江河口潮滩湿地资源丰富，大型底栖动物群落与其生活底质构成了生态系统的底栖亚系统，其分

学位

九段沙湿地底栖动物群落结构季节变化时空格局互花米草土壤因子动物群落

负荷剂量利多卡因对剖宫产术后硬膜外自控镇痛质量的影响

目的探讨负荷剂量利多卡因在产妇剖宫产术后硬膜外自控镇痛中的应用效果.方法选取2016年3月-2018年10月在该院接受剖宫产术治疗的136例产妇为研究对象,回顾性分析其临床资

期刊

剖官产利多卡因硬膜外自控镇痛血压

规范围生期保健对子痫前期妊娠结局的影响

目的分析子痫前期孕妇围生期保健状况,探讨规范围生期保健对子痫前期孕妇妊娠结局的影响,以改善母婴结局.方法本研究对2016年1月-2018年9月在江西省妇幼保健院救治的子痫前

期刊

妊娠结局子痫前期围生期保健

群组孕期保健管理模式在妊娠期肝内胆汁淤积症孕妇中的应用

目的分析群组孕期保健管理模式在妊娠期肝内胆汁淤积症孕妇中的应用效果.方法选取2018年8月-2019年2月在该院诊断为妊娠期肝内胆汁淤积症的孕妇71例为对照组,2019年3-8月在

期刊

群组孕期保健管理模式妊娠期肝内胆汁淤积症孕妇自我管理能力母婴结局

烟草航天育种突变体T-cldf及其相关ESTs的研究

烟草(Nicotiana tabacum)属于茄科(So1anaceae)烟草属(Nicotiana)，是世界性种植的经济作物。中国是烟草大国，既是最大的烟叶生产国，也是最大的烟叶消费国，但并不是烟草强国。中国

学位

烟草航天育种突变体扩增片段长度多态性抑制性扣除杂交表达序列标签ESTs

MIMO声纳稳健自适应波束形成方法及DOA估计技术应用研究

由于水下环境的复杂性和特殊性，对自适应波束形成的稳健性更为严格，因此研究稳健且适用于多输入多输出(Multiple-Input Multiple-Output，MIMO)声纳结构的自适应波束形成方法具有

学位

多输入多输出声纳自适应波束形成数据恢复DOA估计性能

干扰协调技术的研究及其在LTE-A中的应用

随着第三代移动网络的商用在世界范围内的逐步深入和LTE无线网络标准化的结束,第四代无线网络(LTE-Advanced)也进入了标准化的重要时期。LTE-Advanced较之之前的无线网络其最

学位

软频率复用LTE-Advanced小区间干扰负载均衡小区呼吸技术

子宫腹腔镜手术中使用右美托咪定复合酮咯酸氨丁三醇麻醉结合加速康复外科理念的价值

目的探讨子宫腹腔镜手术中使用右美托咪定复合酮咯酸氨丁三醇麻醉结合加速康复外科(ERAS)理念的价值.方法选取2017年9月-2019年9月在该院行子宫腹腔镜手术的患者84例为研究

期刊

子宫腹腔镜手术右美托咪定酮咯酸氨丁三醇加速康复外科理念

深部浸润型子宫内膜异位症患者相关肠道功能紊乱的康复指导

目的分析康复指导对深部浸润型子宫内膜异位症患者相关肠道功能紊乱的临床效果.方法选取上海市同仁医院2015年3月-2018年3月收治的31例深部浸润型子宫内膜异位症相关肠道功

期刊

深部浸润型子宫内膜异位症肠道功能紊乱盆底肌肉训练生物反馈康复指导

电力基建工程项目进度管理的影响因素探析

本文通过对荣华二采区10

期刊

汉语语音非常见词检索和端到端的语音识别研究

其他学术论文