【摘 要】
:
说话人识别是根据说话人语音信号中的个性特征来辨认出说话者身份的一种生物识别技术。说话人识别系统的性能可以从多个方向来提升。例如从说话人的语音特征中选取出足够重要的特征来提升特征的可区分性;也可以使用性能较好的损失函数来训练特征提取网络。本文利用注意力模型和多度量学习来提升说话人识别系统的性能。本文的主要工作如下:1)提出了频带注意力(Frequency Band Attention)模型来对说话人
论文部分内容阅读
说话人识别是根据说话人语音信号中的个性特征来辨认出说话者身份的一种生物识别技术。说话人识别系统的性能可以从多个方向来提升。例如从说话人的语音特征中选取出足够重要的特征来提升特征的可区分性;也可以使用性能较好的损失函数来训练特征提取网络。本文利用注意力模型和多度量学习来提升说话人识别系统的性能。本文的主要工作如下:1)提出了频带注意力(Frequency Band Attention)模型来对说话人的语音特征进行重新校准。首先利用一维卷积来聚集同一频带上不同帧特征的信息,一维卷积操作使得不同帧特征被赋予不同的权值。因此个性特征集中的频带的作用被放大,而个性特征不集中的频带的作用被缩小。然后利用两个带有非线性运算的全连接层分别对特征的维度进行压缩和还原。这样可使不同频带聚集的信息与一组频带权值相关联。然后将重定义的说话人特征输入到带有挤压激励网络的残差网络中。利用残差网络来提取说话人的深度特征,其中挤压激励网络能够在卷积层中获取不同通道特征图之间的通道相关性。2)提出一种多度量学习方法来训练鉴别特征提取网络。首先将提取的说话人特征输入到具有挤压激励网络的残差网络中。然后利用三种损失函数组成多度量学习损失函数来训练网络。其中利用交叉熵损失函数加快网络的训练;利用三元中心损失函数来缩小相同样本之间的距离并增加不同样本之间的距离;利用Additive Margin Softmax损失函数来无差别的增加样本的类间距。
其他文献
随着计算机技术迅速发展和我国网民人数高达9.04亿,网购成为人们购物的首选。传统推荐算法在商品爆炸式增长的情况下进行个性化推荐时,一直面临着数据稀疏、商品冷启动和用户兴趣难挖掘等问题。本文利用深度学习具有非线性学习能力,在推荐系统中能自动进行特征学习挖掘出用户及物品间的隐含和潜在特征,解决了用户兴趣难挖掘问题。用one-hot编码和Embedding嵌入层把高维稀疏的数据特征转化为低维稠密型特征,
高分辨率的城市遥感图像细节复杂内容丰富,能准确的反映地表信息。利用深度学习技术对城市遥感图像进行语义分割,可以对城市的道路、水体和建筑等信息进行不间断的动态检测,有利于全面、高效地了解城市的发展。本文针对高分辨率城市遥感图像因背景复杂、目标尺度大小不一而导致的分割难度较大问题,进行了以下研究:(1)针对数据集样本少且类别分布不平衡的问题。首先采用一定的步长对原图和标签图进行裁剪,然后通过镜像翻转、
为实现“双碳目标”(2030年碳达峰,2060年碳中和的目标),建设高效安全能源体系,大力发展可再生能源,推动能源清洁化转型是一种有效措施。太阳能作为一种典型的可再生能源,具有较高的研究价值,但光伏发电受气候、外界环境影响较大,其出力具有高度随机的特点。随着光伏在电网所占比重越来越大,为了更好地将光伏发电接入大电网中,减小其对电网的冲击,提高电网安全准确的调度和电能质量,准确的预测光伏发电出力非常
随着互联网的快速发展,数字时代正式到来,数字技术也逐渐渗透到人们生活的方方面面。在数字时代下,人们获取到信息越来越多,面对繁多的信息,人们难以拿出更多的时间去提取和处理其中有效的信息。而数字图像却能很好的解决了这个问题。图像承储的数据量大而集中,能轻松的让人们提取出想要的信息。正因如此,数字图像已经成为互联网上主要传输的信息,因此,数字图片也成为了非法攻击者的首要攻击目标。我们发送的图片在开放网络
借助超声图像辅助医生诊断甲状腺结节良恶性,对甲状腺癌患者的早期治疗有重要意义。针对当前超声图像质量差和样本少、结节深层特征交叉难提取、良恶性识别率不高、先验知识利用不足等问题,提出多任务深度学习下的甲状腺结节良恶性超声辅助诊断模型。课题主要研究内容和取得的阶段性成果如下。首先,开展改善数据集质量的研究。对原始超声图像进行预处理,提取甲状腺超声图像的感兴趣区域,再去除人工标记实现降噪,并选取加权自适
能源是一个国家的战略储备资源,是人民生活和经济发展的重要物质基础。随着人类对自然资源的大量开发利用,全球环境污染和能源短缺的问题也日益加剧,发展清洁、高效的能源已刻不容缓。在目前能源革命的环境下,分布式能源也得到了迅速的发展。微电网(Microgrid)是能源互联网的重要组成部分,它能将分布式电源、负载、储能设备以及电力电子装置组合成一个单元的形式连接到电网中,有效地促进了分布式能源的发展。冷热电
当前对垃圾的处理流程通常是居民将生活垃圾丢到垃圾桶中,环卫工人清理然后运送到指定的处理厂进行焚烧或者填埋。这样就会导致部分可循环利用的资源没有得到充分的使用,同时也对环境造成了巨大的污染。然而在居民丢生活垃圾的是对垃圾图像进行分类并将对应的垃圾放入对应的垃圾箱中,这样能够将有用垃圾提出来加以利用,这样处理的优势有:资源得到循环利用、环境污染减少、人工成本降低等。对垃圾图像进行垃圾分类,垃圾种类是固
双目3D图像传感器仅能采集单个方向的立体对视频图像,无法获得全方位的深度信息,为此本文提出一种全向3D图像传感器,能够同步采集前后左右四个方向的立体对视频图像,经过硬件逻辑算法处理后,全向3D图像传感器能够输出八目同帧视频图像,也能够直接输出裸眼3D视频图像。本文完成的主要工作如下:(1)规划了全向3D图像传感器的空间布局。使用四组双目3D图像传感器布置于前后左右方位,从而构成具有全方位视野的全向
大脑状态时时刻刻在发生变化,因而脑电(electroencephalography,EEG)信号是非平稳的。新的用户在使用一个脑机接口(brain-computer interface,BCI)之前,必须经过冗长的训练采集EEG数据,用于构造BCI的分类模型。这限制了它的实用性。迁移学习是减少BCI训练时间的有效方法。通过将以前用户的实验数据迁移到一个新的用户,作为训练数据构造他的分类模型,从而减