基于深度神经网络的高采样率语音增强模型研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hammil
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强是语音信号前处理中的重要内容,它在助听器设备、语音通话、人机交互等领域有广泛的应用。智能设备的发展带动消费领域硬件规格提升,采用高采样率的麦克风已经成为一种发展趋势,研究高采样率语音增强有非常大的现实意义。本文对单通道48 k Hz采样率的语音增强算法进行研究,提出深度学习与传统方法相结合的语音增强方法。传统语音增强方法中最小均方误差频谱幅度估计器有较高的性能和较好的鲁棒性,该方法的效果主要受先验信噪比和后验信噪比估计准确度的影响。由于传统方法难以准确估计含有非平稳噪声语音信号的先验信噪比,因此本文使用Deep Xi先验信噪比估计框架替换传统方法完成对先验信噪比的估计。Deep Xi框架利用深度神经网络强大的非线性映射能力完成带噪语音幅度谱到先验信噪比的映射。原始的Deep Xi先验信噪比估计框架使用带有残差连接的长短时记忆网络实现对先验信噪比的估计,而该网络存在并行性差、资源消耗多的缺点。本文提出使用时间卷积网络、多分支时间卷积网络、多头注意力机制三种网络结构对48 k Hz采样率语音信号的先验信噪比进行估计。纯净语音信号幅度谱估计通常使用最小均方误差短时幅度谱估计器和最小均方误差对数幅度谱估计器,而这两者都没有考虑到听觉系统的掩蔽效应。本文提出使用加权欧氏失真测度改进幅度谱估计器,该方法考虑到人耳听觉系统的掩蔽效应。使用加权欧氏失真测度改进后的幅度谱估计器相比于短时幅度谱估计器和对数幅度谱估计器在大多数条件下有更好的语音增强性能,且能有效减少残留的噪声。本文将48 k Hz采样率的语音和噪声数据构建训练集、验证集和测试集用于模型的训练、验证以及测试。实验结果表明,本文提出的语音增强方法相比于传统语音增强方法有明显的性能提升。对于先验信噪比估计的准确性,多分支时间卷积网络能有效扩大感受视野,其性能明显优于时间卷积网络。多头注意力机制能有效提升先验信噪比估计的准确性,其性能相比于时间卷积网络和多分支时间卷积网络有明显的优势。对于不同的幅度估计器,加权欧氏失真测度改进的最小均方误差频谱幅度估计器综合性能略好于最小均方误差对数频谱幅度估计器,且优于最小均方误差短时频谱幅度估计器。
其他文献
工业机器人是一种重要的自动化加工设备,高的绝对定位精度有助于推广工业机器人在高精密加工装配中的应用。传统基于模型的运动学标定方法对提高工业机器人的精度作用有限,所以需要寻求一种广义运动学误差标定方法,对那些导致工业机器人定位误差的几何参数误差和非几何参数误差进行标定,以降低工业机器人的定位误差,提高其绝对定位精度。为了寻找能使工业机器人的绝对定位误差大幅度减小的标定方法,本文进行串联工业机器人的广
涡轮发动机燃烧室等内部处于高温、高压、高腐蚀等环境,需要采用温度传感器对其内部进行实时的监测,这类传感器不仅需要能够应用于以上恶劣环境,还需要具备无线以及体积小的特点。目前温度测试技术的关键在于缺乏新的敏感元介质材料以及无线传感机制,本文提出了一种集开槽天线于一体的谐振腔式无线无源温度传感器。该传感器是采用先驱体转换PDC-SiBCN陶瓷为介质材料,银作为金属导体形成谐振腔,以开槽天线为传输线,实
在中国制造2025的大战略下,生产的智能化,自动化,逐渐的成为了当前制造业发展的主流趋势,工业机器人的应用更是在其中扮演了十分重要的角色。但目前工业机器人的从业者主要工业机器人关联行业的人员,在进入正常作业状态之前,仍需要进行大量的培训任务,虽然各高职、职业院校开设工业机器人专业以应对高速增加的社会职业需求,但目前的需求仍然无法被满足,主要原因是市场上常见的工业机器人实训系统,只能实现功能单一、任
卷积神经网络(Convolutional Neural Network,CNN)依靠复杂的结构和海量的参数在图像分类和目标检测等应用中展现出优异性能,但这也为CNN在计算资源和存储资源受限的边缘端硬件部署带来巨大挑战。模型压缩方法因能够减少CNN计算复杂度和尺寸,为CNN边缘端部署的资源优化提供了可行的解决方法。参数量化作为模型压缩方法的有效手段之一,通过使用较低位宽表示典型的32位浮点网络参数,
随着“天问一号”火星探测器成功发射,我国开始了对火星的探索。高分辨率的火星图像对研究火星地貌特征,分析火星表面的天气和气候具有重要意义。目前主流的图像超分辨算法是深度学习的方法,在效果上优于传统方法。但是,现如今的图像超分辨方法中,所用的低分辨率(LR)图像通常是由高分辨率(HR)图像经过一种理想的降采样方法得到的。使用这样的方法得到的LR-HR图像对进行训练后得到的模型在理想的数据集上测试,产生
卫星遥感技术具有极其广泛的应用场景,如变化检测、地物跟踪等。由于卫星遥感影像经常被普遍分布的云层所污染,这种云层遮挡现象给遥感应用带来困难与挑战。因此,云检测是许多遥感应用的先决条件,是卫星遥感图像分析的一个重要研究领域。现有云检测方法在薄云的检测以及明亮地表的判别上存在缺陷,本文主要通过研究基于深度学习语义分割的云检测算法,旨在提升云检测精度。在薄云的检测上,因为薄云体积小、分布稀疏、透明度高、
本课题主要针对多四旋翼飞行器协同路径规划问题进行分析研究和算法设计,论文主要工作如下:首先,给出所涉及的坐标系、坐标间的转换关系,建立四旋翼飞行器的运动学和动力学模型,将多无人机协同路径规划问题分解为目标分配问题和局部路径规划问题,并给出了两个子问题的数学描述。其次,研究多无人机目标分配问题,针对两种不同的信息约束条件,分别给出了集中式和分布式的目标分配算法。通过设计编码方式和交叉、变异、选择等算
机械手在人类的生产与生活中有着十分重要的作用与地位。桁架式可收展机械手因为可以折叠,所以有便于运输,占用空间小等优点。同时,又可以通过展开变成大尺寸姿态,实现更大的操作空间,抓取更大的目标。桁架式结构特点赋予机械手更大的刚度和抓取力。本文针对一种桁架式可收展抓取机械手,通过理论分析与联合仿真验证其抓取作业的可行性,并基于联合仿真结果进行优化设计,为后续样机制作提供理论依据。通过桁架式可收展机械手构
使用机器人装配电缆等柔性工件是进一步提高生产效率和降低人力成本的关键。许多工业领域已经实现了用机器人自动组装工件。由于像电缆、柔性电路板、密封圈这类柔性工件在受外力作用时容易发生形变,大部分情况下机器人无法预测和估计工件的变形或利用工件的变形来完成装配任务,因此在研究时主要对柔性体的避障方法进行研究。但在一些环境中无法避免柔性体与环境的接触,这就需要利用柔性体与环境接触的变形来完成装配任务。本课题
图像/视频超分辨率重建任务作为计算机视觉的底层任务之一,其目的是将多帧或单帧低分辨率图片恢复成参考帧对应的高分辨率图片,由于高分辨率视频/图片提供了更为丰富的细节信息,这对于后续的诸多视觉任务至关重要,如复杂场景下的小目标检测、监控视频的行人重识别、医学成像、航空遥感图像等,这使得超分辨率技术成为了计算机底层视觉领域的一大研究热点。本学位论文基于生成对抗网络的框架,通过改进现有的循环帧处理网络结构