基于深度学习的语音增强技术研究

来源 :战略支援部队信息工程大学 | 被引量 : 10次 | 上传用户:scratch2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强是语音信号处理的一个重要领域,作为自动语音识别的前端,它在改善设备在噪声环境中的性能和克服失配环境上发挥着重要作用。近几年以来,随着深度神经网络(Deep Neural Network,DNN)在语音识别领域的成功应用,语音增强的研究人员深受启发,开始思考在语音增强领域引入深度结构。DNN的深度非线性结构有着强大的建模能力,可以很好地抑制一些非平稳噪声。然而,目前的语音增强系统仍存在鲁棒性差、在非平稳噪声环境和失配环境中效果明显下降的问题。针对此,本文在网络结构改进和自适应算法方面取得了以下研究成果。1.针对系统在非平稳噪声和低信噪比环境下鲁棒性不强的问题,本文提出了一种子空间DNN权重估计的结构保持语音增强方法。首先,结合理想概率掩蔽(Ideal Ratio Mask,IRM)的结构,本文学习一种组合模型,将IRM用非负矩阵分解(Non-negative Matrix Factorization,NMF)方法分解为一系列基和对应的权重。然后,与直接估计IRM的方法不同,本文将权重作为新的训练目标,训练DNN网络,并用得到的权重与之前的基进行线性组合,得到估计的掩蔽。实验证明,估计权重的训练可以帮助保持最终输出的结构,子空间DNN权重估计的结构保持语音增强利用了IRM中包含的可懂度信息,引入相邻的时频单元的信息,增强了系统鲁棒性,在分段信噪比、语音质量和可懂度方面都得到了显著提升,并且训练目标矩阵更加稀疏,训练速度更快。2.针对实际应用中经常存在的噪声环境失配问题,本文引入了两种措施:一是用表征噪声信息的辨识矢量(identity vectors,i-vectors)与其他声学特征拼接作为网络的输入;二是使用迁移学习失配补偿算法调整网络。I-vector在说活人自适应中有着良好的表现,可以很好地表征说话人的信息,本文中,将语音识别中的方法借鉴到语音增强领域,通过调整训练集的构成,使i-vector更多地包含噪声环境信息,作为噪声的表达和其他特征一起输入DNN;再用迁移学习失配补偿算法,在已经学习好的模型的基础上,通过自适应训练和正则化算法得到新模型。实验证明,引入i-vector作为噪声表达的方法只对噪声类型不匹配的情况有效,而对信噪比不匹配的情况无效;迁移学习失配补偿算法无论是信噪比不匹配还是噪声类型不匹配的情况下都有效。在噪声类型不匹配的情况下,两种方法相结合,系统性能取得了进一步的提升,尤其是针对低信噪比和非平稳噪声的情况。3.针对基线DNN语音增强系统训练中假设多的问题,本文研究了一种新颖的DNN结构——生成式对抗网络(generative adversarial network,GAN)的端到端的语音增强系统架构(Speech Enhancement Generative Adversarial Network,SEGAN),并对激活函数进行了研究和优化选择。GAN由生成式网络(generator,G)和辨别式网络(discriminator,D)两个网络构成,G负责模仿真实数据分布来生成数据,D负责辨别数据来自于真实分布还是G。训练过程是两个网络互相博弈,使得D难以分辨数据来源。此时的生成网络可以当作“带噪语音-干净语音”的转化器。GAN不需要从原始语音中提取声学特征,也不需要在后端用掩蔽合成语音,是一个端到端的系统,减少了对先验信息的需求,避免了假设。而且它最大限度减少了冗余步骤,操作简单。而且,为了更细致地评估语音增强的效果,本章引入了另一个评价指标mPESQ,它包含分别对语音损失程度(SIG)、噪声干扰程度(BAK)和总体效果(OVL)的评价指标。实验证明,SEGAN系统在语音质量比基于掩蔽的DNN方法的PESQ略低,但STOI和segSNR高于基于掩蔽的DNN系统。而且是它的语音损失更少(SIG),去除噪声效果更好(BAK和segSNR),因此,在这两种评价上总体效果更好(OVL)。在对激活函数的探索上,基于PRe LU和Leaky ReLU激活函数的系统达到了相近的性能,Leaky Re LU略优于PReLU。总体来说,SEGAN可达到与基于掩蔽的DNN语音增强系统相近的水平,但是其结构简单、假设少,而且它是语音增强领域新方法的尝试,后续还有很大的发展前景。
其他文献
作文教学是语文教学中的重要内容,作文能反映出学生语文学习的综合素质。然而,现实中的作文教学大多脱离生活,这直接导致了学生作文空洞无物、千篇一律。"微写作"篇幅短小、形
《三国演义》中,有许多容量词。罗幕士的《三国演义》英译本中对这些容量词的翻译形式多样,但有不少错误。本文分析了那些形式和错误,并提出改进的办法。
本文对价值链视角下的软件企业内部控制进行了分析,笔者就个人观点探讨了目前我国软件企业在内部控制活动中的不足之处,并提出了几点改进措施,以供读者参考,不当之处望海涵指
邓小平发展标准是邓小平理论的一个重要组成部分,它的提出不是偶然的,其酝酿于六十年代初,改革开放后正式提出并逐步完善,对建设有中国特色的社会主义有着重要的指导作用,具有重大
试验研究了捷达LPG/汽油两用燃料汽车的振动噪声特性.主要测量了发动机缸体和座椅的振动情况,对比分析了匀速和加速时燃用汽油和LPG的噪声特性.试验结果表明:两用燃料汽车使
在本文中就内蒙古自治区特色产业之一,羊肉产业的发展现状及存在的问题做了分析,对今后羊肉产业开发研究的八个方面做了论述,提出了走科技示范加龙头企业的道路,是我区羊肉产
秦巴山脉横跨南北地理空间,是我国的中央水库和国家绿肺。由于地形条件的约束,秦巴山脉逐渐成为我国经济发展的洼地和贫困多发地区,内部生态环境保护与社会经济发展诉求的冲