【摘 要】
:
说话人识别是指利用说话人的语音特征识别说话人的身份。说话人识别可以广泛应用于司法鉴定、智能语音助手等领域,一直是语音信号处理方面的一个研究热点。本文提出了基于独立向量分析和并行卷积神经网络的语音特征融合算法来实现说话人识别。论文的主要研究工作如下:1.提出了一种基于独立向量分析的语音特征融合算法。首先,分别提取说话人的语音信号的时域特征和频域特征,将该说话人的时域特征和频域特征分别构成时域特征矩阵
【基金项目】
:
国家自然科学基金项目“基于深度神经网络的说话人分离和识别算法的研究”(项目编号:61866024);
论文部分内容阅读
说话人识别是指利用说话人的语音特征识别说话人的身份。说话人识别可以广泛应用于司法鉴定、智能语音助手等领域,一直是语音信号处理方面的一个研究热点。本文提出了基于独立向量分析和并行卷积神经网络的语音特征融合算法来实现说话人识别。论文的主要研究工作如下:1.提出了一种基于独立向量分析的语音特征融合算法。首先,分别提取说话人的语音信号的时域特征和频域特征,将该说话人的时域特征和频域特征分别构成时域特征矩阵和频域特征矩阵,再将说话人的时域特征和频域特征矩阵并联来构成一个特征张量。利用独立向量分析,分别估计时域特征和频域特征的独立特征分量矩阵,然后将时域和频域特征的独立特征分量矩阵并联得到说话人的语音信号的融合特征,同时构建说话人的模型。最后将说话人语音信号的融合特征作为深度卷积神经网络的输入,利用深度卷积神经网络提取说话人语音信号的深度特征,将该深度特征作为全连接层的输入,再将全连接层的输出作为Softmax层的输入来实现说话人识别。2.提出了一种基于并行卷积神经网络的语音特征融合算法。首先,利用独立向量分析,分别估计说话人的语音信号的时域特征和频域特征的独立特征分量矩阵。然后,将该说话人语音信号的时域特征的独立特征分量矩阵和频域特征的独立特征分量矩阵分别作为并行卷积神经网络的输入来提取时域特征和频域特征的深度特征,将时域特征和频域特征的深度特征级联得到说话人语音信号的融合特征。最后,将该融合特征作为全连接层的输入,再将全连接层的输出作为Softmax层的输入来实现说话人识别。
其他文献
近年来,磁耦合谐振式无线电能传输(Magnetic-Coupled Resonant Wireless Power Transfer,MCR-WPT)技术凭借传输距离适中、传输效率高、输出功率大、电磁辐射小等优点受到广泛关注。针对传统同轴式MCR-WPT系统线圈占用空间较大、不易摆放的问题,提出了一种易于安放在家居环境的共面式MCR-WPT系统,该系统可逐段扩展,适用于长距离下给多个负载供电的应用
随着无人机技术的不断发展,无人机变得越来越普遍,因此无人机的应用场景也越来越广泛。通常在室外环境下,无人机可以依靠全球定位系统(Global Positioning System,GPS)完成飞行任务,但是在GPS信号不佳的室内环境下,无人机将无法依靠GPS完成室内飞行任务,为了使无人机在室内环境有更广泛的应用场景,需要设计一个室内导航定位系统。因此,本文对超宽带定位技术进行了分析与研究,设计了一
计算机视觉技术随着卷积神经网络快速发展取得了巨大突破,在视觉检测领域,已经出现了众多如YOLO、Fast-RNN等经典高精度模型。然而这些网络模型也存在着两个问题:一是经典目标检测模型参数、浮点计算量庞大,不能在性能较弱的移动设备推理部署,二是随着网络模型参数、浮点计算量减少,网络模型性能直线下降,即网络轻量化后检测精度不足。这些问题限制了目标检测算法的落地应用和检测效果。针对上述问题,本文基于主
无线定位技术广泛应用于军事领域和民用领域。军事领域以雷达定位为主,雷达利用目标对电磁波信号的反射实现对目标的定位。民用领域通常利用已有的通信基础设施,通过发射和接收电磁波信号的方式实现对用户的定位。其中,毫米波定位技术因其拥有较高定位精度、低延迟、可集成度高等优势备受关注。然而传统的5G毫米波定位系统中毫米波信号容易受到障碍物的遮挡,降低了定位能力的可靠性;另一方面,现有的定位精度仍不能满足虚拟现
许多数字图像涉及个人隐私、企业隐私或军事机密等信息,这些信息在传输过程中往往存在被窃取或篡改的风险。安全且高效的图像加密算法是保障数字图像安全传输的关键手段之一。本文提出了两种基于实值离散Gabor变换和比特置乱的混沌彩色图像加密算法。本文的主要研究工作如下:设计了一种基于实值离散Gabor变换和比特置乱的混沌彩色图像加密算法。通过实值离散Gabor变换将图像信息转换到变换域进行加密。以明文和初始
通过特殊的介质记录物光和参考光的干涉条纹,经激光器照射,再现物体真实三维图像的技术称为计算生成全息技术(Computer Generated Holograms,CGH)。然而,CGH技术面临的最大挑战是算法运行时间和图像质量之间的基本权衡,这阻碍了高质量全息图像的快速合成。此外,由于光学再现时,光传播模型与其模拟模型不匹配,导致大多数显示器的成像质量较低。为解决这些问题,本文的主要贡献如下:(1
在荧光偏振调制技术中,当旋转线偏振光的偏振状态,荧光分子的辐射强度受到其极化方向与入射光偏振方向之间的角度调制。荧光强度以余弦平方的响应发生变化,增加了采集图像的稀疏性。利用图像的稀疏性,进行偏振调制解调算法迭代重构图像,获得分辨率进一步提高。本课题研究了荧光偏振调制在显微成像系统中进一步提高分辨率,即开展了荧光偏振调制的理论模拟分析。在此基础上,开展了荧光偏振调制应用于宽场荧光成像实验研究,并提
当前互联网用户快速增长,社交媒体已成为人们信息分享与信息获取的重要平台,从社交媒体平台中提取反应现实生活极具价值的热点事件,构建逻辑连贯的故事脉络,有助于我们迅速掌握舆论焦点,捋清事件的发展脉络和趋势。现有无监督事件探测方法大多数只是利用词频或者词共现特征,没有利用文本的语义特征,本文基于大规模社交网络数据生成Word2Vec模型获取文本语义特征,并提出融合文本语义和共现关系的Text-Graph
近距离属性成像提供生物组织吸收率与散射率信息,广泛应用于皮肤病临床诊断、消化道早癌原位筛查和果蔬病害检测等领域。经典光学属性反演方法假定的光源为平行入射光,而近距离宽场结构光照明不满足该情形。本文基于朗伯体漫反射模型,引入目标表面形貌信息可提高光学属性反演精度。基于上述思路,研究基于三维形貌矫正的属性参数估计算法、系统搭建和单次曝光快速成像方法。首先,为了同时测量两种信息,设计了一套基于结构光的三
随着6G通信感知一体化的深入研究及LED照明产业的蓬勃发展,以LED作为照明源和信号发射机的可见光通信(VLC)技术颇具应用前景。多色照明LED通过波分复用能提升传输速率,实现正常照明和高速通信的复用。本文选取多种照明参数对多色CSK调制星座点进行建模优化,并设计了通信照明一体化的多色VLC系统,旨在高速通信时能满足照明需求,主要研究内容如下:1、首先对LED照明混光方法及多色VLC调制技术进行综