【摘 要】
:
随着时代的发展,语音在人们的生活中越来越重要,但是现实世界背景下往往会掺入很多背景噪声。这会导致语音质量的下降,因此在这种背景下,语音增强技术成为一个热点。除了传统的语音增强方法,基于深度学习的语音增强方法已经在语音增强领域占有一席之地。它能够通过神经网络直接实现带噪语音到目标语音的映射,避免了传统方法往往需要估计噪声谱的弊端,提升语音增强的效果。基于卷积神经网络的语音增强模型表现良好,但深度神经
论文部分内容阅读
随着时代的发展,语音在人们的生活中越来越重要,但是现实世界背景下往往会掺入很多背景噪声。这会导致语音质量的下降,因此在这种背景下,语音增强技术成为一个热点。除了传统的语音增强方法,基于深度学习的语音增强方法已经在语音增强领域占有一席之地。它能够通过神经网络直接实现带噪语音到目标语音的映射,避免了传统方法往往需要估计噪声谱的弊端,提升语音增强的效果。基于卷积神经网络的语音增强模型表现良好,但深度神经网络训练需要大量的带标签数据,而在实际应用中可能出现只有少量数据和没有标签数据的情况。此时在训练集上表现良好的深度模型在分布不同的测试集上表现出现明显下降,如何在条件不足的情况下提升模型的泛化性是一个亟需解决的问题。针对上述问题,本文通过结合域对抗训练网络(Domain-Adversarial Training of Neural Networks,DANN)和语音增强方法,提出了一种基于DANN的卷积语音增强优化算法,称为 Convolutional Speech Enhancement Algorithm Based on DANN(CSEDANN)。该算法以卷积神经网络为基础,插入注意力模块并基于DANN的思想进行调整得到新的模型,该模型泛化性相比原来有了明显提高。本文具体的研究内容分为以下几个方面:(1)定义语音增强的优化问题。首先详细介绍了语音质量的性能指标和计算方法,给出语音增强问题的定义。然后详细分析了语音增强问题中的迁移学习问题并对其进行定义。最后给出了整体的语音增强优化问题定义。(2)设计并实现了基于DANN的语音增强优化算法CSEDANN。算法首先采用了卷积层、批量归一化层和激活层级联的结构,构成一个基于卷积的语音增强网络。其次在网络中插入注意力模块提高网络性能。最后基于带注意力的CNN模型构造特征提取器、预测器和域分类器,设计出CSEDANN算法。基于该模型,再给出该算法在两种情况下的训练步骤。算法在针对只有少量标签样本时,先进行预训练然后训练微调。在针对无标签样本时,使用原数据集带标签样本和目标数据集无标签样本进行联合训练。(3)通过实验验证本文提出的CSEDANN算法的有效性。在不同源域数据集和目标域数据集的组合下进行实验对模型性能进行验证。重点关注方法在目标域中的变化,使用SDR对性能进行评估。插入注意力模块后,SDR指标值提升了 0.11dB。CSEDANN在少量带标签样本情况下相较带注意力的CNN语音增强方法SDR指标值提升了 1.54dB,相较冻结微调方法提升0.08dB,相较消融实验提升0.07dB。CSEDANN在没有带标签样本的情况下相较带注意力的CNN语音增强方法SDR指标值提升了1.05dB,说明方法的有效性,证明了本文提出的算法相较于原算法取得了稳定显著的改进。
其他文献
随着无线通信技术的高速发展,通信设备广泛覆盖,人们对于高速率通信与实时准确定位的需求日益增大。将定位功能与通信功能进行融合,实现随时随地的数据传输与精确定位服务成为迫切需求,因此,通信与定位一体化成为学术界的研究热点之一。基于无线自组网的通信与定位一体化系统可在基础设施受限环境下快速组网,提供通信与位置服务,同时结合跳频技术优良的抗干扰能力、以及抗截获性能和灵活组网能力,可有效提升系统性能。因此,
战场环境的复杂性、信息的多样性、状态的多变性,为电子干扰带来了巨大的挑战。随着认知电子战的快速发展,具备自适应能力的干扰决策技术备受关注。如何在复杂环境下智能地进行雷达工作模式的识别和干扰样式的选择成为当前干扰决策亟待解决的问题。机器学习是一种智能的数据分析工具,本文研究基于机器学习的雷达干扰决策技术。雷达工作模式的识别是干扰和评估的重要依据,但是新体制雷达的发展,加大了雷达工作模式识别的难度。为
与其他国家相比,我国寿险行业起步较晚,不过我国寿险行业增长迅速,2020年我国寿险保费收入已高达23982亿元。但是从寿险密度、寿险深度来看,我国寿险行业的人均保费收入和在经济总值中的比重都较低。在人口方面,我国人口结构正处在转变时期,人口老龄化程度不断加深,我国人口政策也由早期的计划生育政策向全面二孩政策方向转变,这些因素都对我国寿险行业的发展产生重要影响。在我国寿险区域发展不平衡、人口结构发生
深度学习发展至今已经衍生出了多种多样的算法网络,最具代表性的算法之一就是卷积神经网络,其在语音、图像、自然语言处理等各个领域都取得了惊人的成就。如今常用卷积神经网络的计算环境多为CPU或GPU,巨大计算量带来了功耗及成本问题,因此其实际应用常常面临诸多限制。此外,卷积神经网络结构变化迅速,新的模型和优化方法不断出现,针对不同应用领域结构通常不同。因此,设计一款通用可编程可重构且既能够满足存储和速度
随着现代半导体技术的进步,物联网设备、个人终端设备等以微控制器为主的产品迅猛发展。微处理器作为核心控制单元,其设计要求也从单一追求有效控制向高性能低功耗兼具转变。由于现代微处理器芯片的复杂工作场景导致的散热、续航问题越发严重,使得处理器芯片的低功耗研究具有重要研究价值。本论文研究了 14纳米工艺制程下处理器的基本结构与工作模式,基于Synops ys公司ARC处理器的基础上设计了一套电源域管理系统
雷达散射截面(RCS)作为表征飞机、舰艇等各种军事目标散射特性的一个重要参数,一直以来都是国内外的研究热点。近场测量是目前研究目标雷达散射截面的一个主要手段之一。相较于传统的远场测量和紧缩场测量,近场测量具有测试空间小、捕获信息量大、测量精度高、保密性强、受外界干扰小等优点。尽管近场散射测量技术已有几十年的研究与发展,但在一些细分领域中仍存在着诸多问题尚待研究解决。基于此,本文主要对基于逆合成孔径
随着现代信号处理算法的快速发展,应用场景的日益复杂,信号处理算法复杂度逐渐提升,迭代速度日益加快。传统信号处理平台硬件及软件定制化的设计难以适应算法的快速迭代,许多新兴算法应用到工程中需要较长的开发周期,这阻碍了实验算法到工程算法的转化速度;同时复杂的国际形势使得信号处理硬件平台面临国外技术封锁的潜在威胁。因此,研究一种可以满足各种信号处理算法要求、可以快速开发部署的国产通用化的信号处理平台软件具
在军用和民用领域,基于雷达传感器的海杂波背景下的目标检测问题是一个重点和难点问题。雷达工作在对海模式时,接收的回波中由地杂波、海杂波、海面目标回波等各种类型回波组成,十分复杂。为了避免以岛礁回波为代表的地杂波对后续海面目标检测的影响,使后续目标检测处理能够针对海洋区域,提高检测准确率和效率,在对整个海面进行目标检测之前,通过海陆分割算法将回波中的杂波划分为海杂波和地杂波显得十分必要。当前的海陆分割
工业生产过程中,常需对生产工件进行无损检测以检验工件的性能。超声显微检测技术能够利用超声波的传播特性显示样品表面和内部的缺陷或分层信息,是一种无损检测的有效方式。随着器件小型化的发展越来越迅速,需要检测的缺陷尺寸也越来越小,超声无损检测的分辨率也需要不断提高。为实现微米级缺陷的超声无损检测,本文研制了一套高精度、高分辨率的超声扫描显微系统。本文的主要工作如下:(1)实现了超声扫描成像系统的硬件搭建
卫星通信相控阵天线具有覆盖范围广、信息传输速率高的优势,且能够进行快速波束扫描,是无数天线工作者的重要研究课题之一。对于卫星通信相控阵天线的双圆极化、宽带大角度扫描两大特性更是学者们进行设计研究的重难点部分,科研意义重大。为此,本文的分析研究主要针对双圆极化馈电网络、双圆极化相控阵天线的设计以及相控阵天线宽带宽角的扫描展开。主要的工作内容概述如下:(1)对卫星通信天线双圆极化馈电网络进行研究。为达