【摘 要】
:
语音增强旨在利用信号处理技术及各种算法提高语音的质量与可懂度。作为语音识别系统的前端模块,它在语音交互、电话会议、听力辅助以及军事窃听等场景中发挥重要作用,得到了学术界和工业界的广泛关注。与传统方法相比,基于深度学习的语音增强方法在应对低信噪比以及非平稳噪声方面表现突出,但在一些方面仍然存在不足。深度学习框架下的语音增强方法,通常使用均方误差(MSE)作为优化模型参数的目标函数。但一些研究表明,具
论文部分内容阅读
语音增强旨在利用信号处理技术及各种算法提高语音的质量与可懂度。作为语音识别系统的前端模块,它在语音交互、电话会议、听力辅助以及军事窃听等场景中发挥重要作用,得到了学术界和工业界的广泛关注。与传统方法相比,基于深度学习的语音增强方法在应对低信噪比以及非平稳噪声方面表现突出,但在一些方面仍然存在不足。深度学习框架下的语音增强方法,通常使用均方误差(MSE)作为优化模型参数的目标函数。但一些研究表明,具有较低MSE分数的增强语音方法并不能保证高的语音质量得分。这是因为语音评价指标都是围绕人耳听觉来设计的,而均方误差却只是计算增强语音与纯净语音相关特征的欧氏距离,这就导致了当前的目标函数不能反映人耳的听觉感受,使得损失函数和评价指标出现失配问题。然而目前语音增强领域常用的评价指标通常是高度复杂且不可微分的函数,无法反向传播,因此这些指标无法直接作为目标函数来优化语音增强模型。针对以上问题,本文提出一种改进的基于评价指标网络的语音增强优化方法。本文首先通过一个评价指标网络来模拟语音评价指标,该网络分别以语音质量感知评估(PESQ)和短时客观可懂度(STOI)两个常用的评价指标作为训练目标,从而得到与语音评价指标等价的评价指标网络。该网络在正确反映评价指标分数的同时,也可以作为优化网络指导语音增强网络的训练,从而解决了损失函数与评价指标失配的问题。其次,本文将语音增强网络与固定权重的评价指标网络串联起来进行联合训练,从而间接实现评价指标指导语音增强网络训练的目的,使得增强网络取得更高的语音质量与可懂度分数。为了验证评价指标网络模型的通用性,本文在频域和时域上分别构建了语音增强网络并通过实验进行论证。实验结果表明,与单纯使用MSE损失函数训练的语音增强网络相比,经过评价指标网络优化后的语音增强网络模型在PESQ和STOI上均有更好的表现。
其他文献
近年来对于植物的保护成为研究热点,在复杂广阔的自然环境下,无人机航拍成为植物图像获取的最佳方式。鉴于地面终端管理系统在航拍图像管理中的核心地位,对地面终端系统的深入研究成为航拍项目的重中之重。本文首先从实验室课题背景出发,采集内蒙古自然环境中植物的航拍图像进行分割与识别,以便统计区域内的植物种类及生长情况,本文针对课题应用所需设计一款地面终端管理系统,本地面终端系统可使操作人员对传回地面的图像更加
随着畜牧业的发展,规模化、精细化、智能化养殖已经成为牛养殖业的必然发展趋势。牛个体识别技术是牛精细化养殖和保险业的基础,并且牛的育种、疾病控制、智能化管理,以及乳制品与牛肉制品的质量监管等方面都需要高效的个体识别技术。随着深度学习技术在图像领域的发展,基于生物特征的牛个体识别技术取得了长足进步。本文以牛的面部特征为基础,提出了基于深度学习的牛面部图像识别方法,具体工作如下:1.构建牛面部图像数据集
近几年,公共场所佩戴口罩已经成为大多数国家的共识。同时卷积神经网络在图像识别领域有着良好的应用前景,卷积神经网络需要大量的资源和内存,并且计算量大,FPGA凭借其可重构、低延迟和低功耗等特点,成为主流的应用平台之一。本文通过在FPGA端部署卷积神经网络并识别口罩佩戴情况主要研究成果如下:1.在软件端,利用自主设计的卷积神经网络检测口罩佩戴情况,得到98.5%的识别准确率,并可区分出佩戴口罩不规范和
内蒙古自治区是全国五大牧区之一,在全国畜牧业中占据重要的地位。自治区的发展战略目标中提到,要逐步推进新型的信息科技在畜牧业中深层次的融合应用。其中,牛的个体识别技术对智慧牧场建设和畜牧业保险有着重要意义。三维识别方法比二维识别能提供更丰富的空间信息,可以更精准地进行个体识别。而在三维识别中,牛面部的三维重建是至关重要的一环,对畜牧业的智慧管理具有一定的应用价值。本文针对牛面部三维图像重建的主要研究
随着互联网的兴起和普及,我们进入了一个人人都生产数据的时代,需要处理和存储的数据呈指数式的增长,但传统的数据处理和存储技术却遭遇了瓶颈。而云计算作为海量数据处理和存储的主流平台应运而生。Hadoop则是云计算开源的分布式并行计算框架之一,由Apache旗下基金会发布,被广泛地应用于众多大公司,例如雅虎、脸书、亚马逊、谷歌、微软等。因此,Hadoop渐渐地成为了云计算平台海量数据处理和存储的主流框架
近年来深度学习广泛应用于图像分类、目标检测、图像分割、语音识别等众多领域中.图像修复是计算机视觉领域中的一个重要课题,常见于影视娱乐、医疗影像、公共安全、文物修复等日常生活的方方面面,其主要任务是利用图像整体结构纹理重绘缺失部分的细节,使修复完成的图像内容和谐一致.深度学习很好地解决了传统图像修复的局限,提高了修复模型的学习能力,显著改善了修复效果.时至今日,人们针对不同问题提出了众多图像修复的方
ARINC429是航空电子设备中广泛使用的一种总线协议。近年来,随着我国航空航天技术不断发展,对航空通讯设备的需求越来越大。国内航空通讯设备所用集成电路芯片长期依赖进口,经常面临各种限制问题,因此我国迫切需要拥有自主研发的航空通讯设备。本论文旨在研制一款基于CPCI总线的国产化ARINC429通讯模块,该模块可以提供4路ARINC429接收通道和2路ARINC429发送通道,采用国内先进的集成电路
自旋转移矩磁随机存储器(Spin-Transfer Torque Magnetoresistance random access memory,STT-MRAM)有望代替传统存储器,其高效,非易失性,存储时间长等优点引起了人们的关注。随着科技的不断进步,存储器也不断面临新的挑战。近年来,随着MRAM的存储密度不断增加,尺寸不断减小;同时,还要通过增强磁各向异性来提升存储器的热稳定性。如何可以更好地
面向汉语、英语等大语种的语音交互系统已经应用于科技和生活的各个方面,极大地提高了信息获取效率。而蒙古族人民也对语音交互系统有广泛的需求,希望使用蒙古语与智能设备交互。因此本文设计并实现了面向蒙古语的语音交互系统,本系统由蒙古语语音识别、问答系统、语音合成三部分组成。其中问答系统是语音交互系统的核心部分,问答模型性能的好坏直接影响语音交互系统生成回答的语言质量。目前还没有公开的高质量蒙古文问答语料库
语音增强的目标是抑制噪声,增强期望的语音信号。基于信号处理的传统语音增强方法为了简化计算或获得解析解做了许多假设,在低信噪比与包含非平稳噪声的场景下会出现严重的性能下降。基于深度学习的语音增强方法具有强大的非线性映射能力,在拥有大量训练数据的前提下有望超过传统方法。目前,基于深度学习的主流增强方法通常将语音增强任务建模为全频带谱映射问题,间接忽视了语音增强领域过去几十年的经验积累。基于信号处理的传