【摘 要】
:
语音是人与人之间沟通的重要桥梁,是人类实现信息交互的媒介。尤其是随着智能时代的到来,机器学习和人工智能技术的进步,人们对于更加智能的语音识别系统的需求也变得越来越高,由此出现了一系列针对语音识别技术的研究。传统的语音识别系统GMM-HMM和DNN-HMM中存在着无法利用前后文信息对当前信息进行预测的缺点,针对这一问题,人们提出了利用循环神经网络来搭建声学模型,但在使用过程中发现循环神经网络仍然存在
论文部分内容阅读
语音是人与人之间沟通的重要桥梁,是人类实现信息交互的媒介。尤其是随着智能时代的到来,机器学习和人工智能技术的进步,人们对于更加智能的语音识别系统的需求也变得越来越高,由此出现了一系列针对语音识别技术的研究。传统的语音识别系统GMM-HMM和DNN-HMM中存在着无法利用前后文信息对当前信息进行预测的缺点,针对这一问题,人们提出了利用循环神经网络来搭建声学模型,但在使用过程中发现循环神经网络仍然存在着长记忆弱的缺点。针对上述问题,提出了基于深度双向门控循环神经网络(Deep Bi-directional gate recurrent unit,DBGRU)来搭建声学模型。同时在搭建语言模型时,针对循环神经网络语言模型处理长文本信息能力弱和N-game语言模型需要大训练文本量的弱点,提出了基于注意力机制(attention)来搭建语言模型。通过设计新的声学模型和语言模型,搭建了基于深度双向GRU与注意力机制的语音识别系统,论文完成的工作主要包括:(1)设计了基于DBGRU-CTC的声学模型。模型主要采用了深度双向GRU并结合了CTC损失函数来搭建声学模型。采用深度以加强模型对音频特征的提取能力,双向GRU则增强了网络训练和处理音频的能力。实验结果表明,基于DBGRU声学模型的词错误率仅为12.79%,相较于传统的语音识别系统GMM-HMM和DNN-HMM的识别词错误率分别降低了19.36%和13.41%。(2)设计了基于注意力机制的语言模型。模型主要采用了多头注意力机制模块和全连接网络模块。其中,采用多头注意力使得模型具有了处理长文本的能力,并且通过对句子中的单词分配以不同的注意力,使得模型具有了更加优秀的语言表达能力。采用全连接神经网络,通过网络的升维和降维操作,使得模型具有更好的抽象表达能力。试验结果表明,采用注意力机制搭建的语言模型的识别准确率达到了91.15%,同时,模型的困惑度在测试集上也仅为38.64。(3)设计了基于DBGRU-CTC与注意力机制的语音识别系统。将DBGRU-CTC声学模型和注意力机制语言模型集成到语音识别系统中,实验结果表明,设计的语言模型能使语音识别系统的识别准确率相对于单一的声学模型提升了0.08%。同时对语音识别系统的声学模型对比实验进行分析和讨论,实验结果表明,采用DBGRU-CTC模型的识别词错误率相较于RNN-CTC、GRU-CTC、MBGRU-CTC分别降低了22.75%、17.54%和6.42%。同时,还实验了不同迭代次数下模型的性能,并对模型在噪声环境下进行了实验,结果表明,在噪声环境下DBGRU-CTC模型的识别准确率仍然达到了81.21%。
其他文献
本文的目的是为一家澳大利亚移民公司(HMB Consultants)提供策略管理计划,该公司希望将业务扩展到中国。本论文分析了外部和内部环境,了解HMB Consultants,并展示了中国战略
现代能源领域的动力装置较多使用喷嘴来促进液体燃料和空气充分地混合、燃烧。通过研究喷嘴的雾化机理,可以极大地提高雾化的效果和燃烧的效率,实现节能减排的目标。内混式空气雾化作为空气雾化的一种类型,具有极其广阔的应用前景。喷嘴结构对雾化性能有至关重要的影响,本文主要研究喷孔表面粗糙度对喷孔内部流动性能、一次雾化和二次雾化的影响机理,为喷孔的设计提供实践依据和参考。本文采用数值模拟与理论研究及试验验证的手
与传统整体式箱梁相比,分离式双箱梁颤振稳定性优越,颤振临界风速高,得到越来越广泛的应用。然而,由于增加了中央开槽,使双箱梁周围流场更加复杂,涡激振动性能变差,影响行车
水体污染一直是备受人们关注焦点,其中重金属污染物及水体富养化离子处理一直是水处理方面的重点问题。与此同时,造纸污泥作为水处理过程中产生的固体废物,具有有机物含量高
阅读是每个学生在学习过程中的核心技能。学生的阅读能力有赖于教师的正确、科学的指导,教师通过自己的阅读实践可以切实提高学生的阅读能力。在阅读教学过程中,文本解读是教师阅读教学前的重要教学准备之一。教师必须挖掘文本中所包含的相关信息,除语言本身外,其他的文本特征还可以帮助教师确定教学难点,选择合适的教学策略,设计适当的学习活动,培养学生的阅读技能等。本研究的目的是通过问卷调查,访谈和课堂观察,找出高中
结直肠癌是影响当今人类寿命长度的重大疾病,具有高发病率和死亡率。结直肠癌大都是由息肉恶变导致,所以结直肠癌在很大程度上可以通过对息肉的早期发现和切除来与预防。随着医疗技术的不断发展,CT检查在各类临床疾病的诊断中具有重要的应用价值,相对于传统的结肠镜检查,基于CT数据的结肠虚拟内窥镜是一种非侵入式的检测手段,具有无创,可多次观察的特点。针对于结肠虚拟内镜,结肠息肉的计算机辅助检测研究吸引了越来越多
互联网技术的革新带来了引入人类社交关系的Web 2.0时代,社会化在网络与大众社会活动的融合度达到前所未有的高度。在这样的背景下,用户的参与不断被强调,企业与消费者的对话
无线传感器网络(Wireless Sensor Networks,WSNs)是一种分布式传感网络,由大量的静止或移动的传感器以自组织和多跳的方式构成,协作式地感知、采集、处理和传输网络覆盖区域内被感知对象的信息,并最终将这些信息发送给网络汇聚节点。无线传感器网络所具有的众多类型的传感器,可探测周边环境中多种多样的现象,包括地震、电磁辐射、温湿度、噪声、光强度、压力和土壤成分等,拥有很大的应用空间。
接收模块是雷达、通信系统和制导系统中的重要组成部件,随着这些系统的迅速发展和广泛的需求,接收模块的应用范围也逐步扩大,接收模块的研制也成为一个不可或缺的领域。同时,
能量采集(Energy Harvesting)无线通信技术利用自然界可再生能源为无线通信系统供能,并根据获取能量状态、通信环境和通信需求等条件,进行采集能源的动态分配,满足系统的传输