基于文本数据的端到端语音识别模型训练数据扩充方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhengwei129
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能化的时代正在加速到来,语音作为最自然便捷的交流方式,是推动生活与工作智能化的重要手段。语音识别(Automatic Speech Recognition,ASR)技术是一种将输入的语音信号转换为文本,进而能理解其内容的技术。近年来,随着基于序列到序列的通用建模方法的发展,诞生了端到端的语音识别模型。与传统方法相比,端到端语音识别模型仅包含一个单独的序列模型,可以直接从声学特征序列得到识别的单词序列,简化了语音识别的过程。同时模型不依赖语言模型和发音词典,降低了对专家知识的要求。然而,端到端语音识别模型通常需要大量的语音-文本对来训练,才能获得较好的性能。在实际应用中,收集大量配对数据既费力又昂贵,导致端到端语音识别模型经常无法有效识别罕见词和专有词。为此,本文将探讨基于文本数据的端到端语音识别模型的训练数据扩充方法。主要的工作和创新点如下:(1)基于RNN-T(RNN Transducer)的端到端语音识别模型基于RNN-T的端到端语音识别模型在优化过程中,能同时兼顾声学信息和语言学信息,是目前端到端语音识别领域性能最好的方法。因此,本文使用RNN-T模型搭建端到端语音识别基线模型,并给出了实验结果。(2)基于生成对抗网络的训练数据扩充方法针对RNN-T模型无法有效识别罕见词和专有词的局限性,提出一种仅使用没有配对语音信号的纯文本数据来训练RNN-T模型的方法。受对抗训练机制的启发,先使用一个精心设计的生成对抗网络(Generative Adversarial Networks,GAN)来合成大量文本数据所对应的发音基元序列;然后使用这些文本数据及其对应的发音基元序列作为扩充数据,来对RNN-T模型进行重新训练。(3)生成对抗网络与连接时序分类结合的训练算法上述数据扩充方法中,由于文本序列与发音基元序列的映射关系较为复杂,同时生成对抗网络中判别器的结构简单,容易出现模型坍塌问题。为此,提出通过多任务学习(Multi-Task Learning,MTL)机制将连接时序分类(Connectionist Temporal Classification,CTC)与生成对抗网络两者的损失函数进行结合,以共同监督GAN网络的训练方法。最后,在中文普通话数据集AISHELL-1和AISHELL-2上的实验结果表明,采用本文所提出的数据扩充方法后,能获得比基线模型更好的识别结果。
其他文献
随着铁路建设的高速发展,新建线路的增加,各路局工务部门承担的线路维护工作量越来越大,施工人员数量也越来越多。目前面临的问题是每次外出作业周期长,所需配备的工具和检修材料多、重量大,为了提高施工效率、做好线路维护,有必要设计研发一种能适用于铁路维护材料储备车的工程车转向架。铁路维护材料储备车空车和重车两种工况下轴重差距较大,并且对车辆运行的动力学性能有较高的要求。本文在了解国内外铁路工程车辆转向架基
大容量、高速率已经成为5G通信传输的显著特征,毫米波频段因拥有巨大的频谱资源开发空间而成为下一代通信技术的研究热点。通过引入轨道角动量(Orbital Angular Momentum,OAM
燃烧过程中生成的多环芳香烃(PAHs)是一种具有毒性及化学致癌性的物质,也是碳烟生成的前驱物。为了探究燃烧过程中PAHs的生成特性,本文运用对火焰无干扰且时间和空间分辨率高
百合(Lilium)是一种经济价值较高的球根花卉,源于百合科百合属(Lilium)。在十大切花中位居第四,在我国的花卉产业中位居前三。虽然我国有丰富的野生百合资源,但每年培育出的新品种与荷兰相差甚远。利用现有的百合品种育种,或是利用我国的野生百合资源育种,培育具有自主知识产权的百合新品种,是促进我国百合产业发展的重要内容。奇-异源四倍体百合‘Honesty’,其含有一套铁炮百合(L)的染色体组和三
针对石泉煤矿101综放工作面开采时经常遇到瓦斯超限问题,提出石泉矿采空区瓦斯治理技术方案;对矿井3号煤层瓦斯基础参数进行了测定;根据采空区上覆岩石的垮落特点和UDEC数值模拟,确定采空区“三带”分布规律;分析采空区瓦斯运移规律并建立控制微分方程。根据矿上实际情况对石泉采空区应用FLUENT软件平台对其进行模拟分析,得到采空区瓦斯浓度的规律分布,即沿着走向方向瓦斯浓度从工作面到采空区逐渐升高,瓦斯浓
随着高速铁路的快速发展,高速铁路的运营安全受到了广泛的关注。高速铁路沿线地理环境复杂,存在大量的环境安全隐患,根据《高速铁路安全防护管理办法(征求意见稿)》规定在高速铁路安全保护区内从事采石、采矿、挖砂、取土等行为需符合国家标准、行业标准和铁路安全保护要求,行为不当可能会造成高铁路基的塌陷、沉降,严重威胁着高铁的安全运营,本文将从事采石、采矿、挖砂、取土等行为造成的地表破坏区域称为采挖区。因此,对
在中国的民用航空公司中,A航空股份有限公司其拥有全中国最大密度的航空网,其航班与年总客运量在国内位于第一,但是面对中转业务规模不断扩大,中国市场环境日益复杂多变的趋
真蛸(Octopus vulgaris)广泛分布于世界各大洋的热带和温带海域,味道鲜美,营养丰富,食用价值极高,受到消费者广泛青睐,国内需求旺盛。同时由于其生活史短,生长迅速等特点,已成为头足类中最受关注的养殖对象和研究热点。但是由于环境恶化和过度捕捞,渔获量日益下降,而市场消费对于蛸类的需求上升,使得供需关系失衡,无形中推动了蛸类人工养殖的发展。目前,真蛸的人工繁育和养殖刚刚起步,尤其在真蛸早期
GSM-R铁路专用数字移动通信系统的可用频段为上行885-889MHz下行930-934MHz,仅4MHz的频谱资源以及静态频谱分配的策略严重限制了铁路专用数字移动通信系统的质量保证及业务发展。作为实现中国梦的重要一环,在“交通强国、铁路先行”的感召下,中国铁路正在向着安全、高效、温馨、便捷等目标持续迈进,对高速环境下无线通信业务的种类和质量提出了越来越高的要求,这使得传统固定分配频谱的方式已不能
桥墩位移会造成钢轨变形,并对高速车辆的行车安全性及舒适性产生较大影响,为明确桥墩沉降对车辆动力响应的作用规律,确保高速铁路行车安全,本论文开展的主要工作有:(1)建立了桥墩位移对行车动力响应分析模型。在大量调研国内桥墩沉降案例及分析方法的基础上,结合有限元、多体动力学、刚柔耦合等理论,采用计算机模拟手段,先后对钢轨-无砟轨道-桥梁静力分析模型及车-线-桥刚柔耦合动力学分析模型进行建模。(2)分析了