采用低维向量表示的说话人识别方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:slippers3000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别利用机器自动地对语音片段的目标说话人进行区分。主流的i-vector和x-vector系统将给定的语音片段用具有说话人区分性的低维向量表示,并通过后端建模进一步处理,取得了很大的成功。在此基础上,本文研究采用低维向量表示的说话人识别方法,主要包括说话人低维向量表示的提取方法和信道补偿算法以及多种低维向量相结合策略。网络结构对深度神经网络(DNN)嵌入向量的说话人差异性表达至关重要,原始的x-vector采用时延神经网络(TDNN)和统计池化层分别进行帧信息的提取和聚合,不足以准确地提取说话人信息。带注意力机制的统计池化(ASP)通过对高层特征表示进行加权,增强了神经网络的池化能力。本文在此基础上进一步引入门控机制,利用门控卷积神经网络(GCNN)替代TDNN,从而获得更具表达能力的帧级别特征表示;将门控机制与注意力机制进行结合,提出门控的注意力统计池化(GASP)进一步增强池化层对说话人信息的捕获能力。x-vector采用有监督学习的方式进行网络的区分性训练,训练过程中只利用了说话人标签信息而忽略了输入语料自身的无监督信息。本文提出一种基于高阶统计量的多任务学习策略,在神经网络分类说话人标签的主要任务基础上,引入了重构一阶和高阶统计量的辅助任务。通过有监督和无监督学习的互相配合,提取的说话人向量将更具说话人区分性和鲁棒性。信道补偿算法可以对说话人低维向量中的信道信息进行抑制,线性区分性分析(LDA)信道补偿虽然应用广泛,但因其对数据单峰高斯分布的假设而难以满足复杂场景中的应用需求。有监督的局部保留投影(SLPP)基于权重矩阵对类内和类间的近邻样本对进行加权,保留了重要的局部信息,相比于LDA与其变种(NDA和LWLDA)有更好的性能。本文将概率线性区分性分析(PLDA)与SLPP进行结合,提出P-SLPP算法,利用相对PLDA得分进行SLPP权重矩阵的改进,进一步增强了 i-vector和x-vector的信道补偿效果。单个低维向量表达的说话人信息有限,本文通过得分融合、拼接融合以及深度融合将多种低维向量进行结合,从而探究不同低维向量间的互补性。在深度融合中,本文提出基于AM-Softmax的融合网络将多种低维向量融合为一个向量表示,取得了优于得分融合和拼接融合的效果,并且该融合策略可以通过多任务学习得到进一步改进。最后,结合深度融合和得分融合,可以显著提升说话人识别系统性能。
其他文献
现役四角切圆锅炉普遍存在锅炉再热汽温偏差大的问题,再热蒸汽温度偏离设计值会影响设备运行的经济性,严重时会危及机组安全。本文所研究的660MW超超临界机组锅炉为四角切圆π型炉,高温再热器出口汽温左右侧偏差达16-20℃,低温再热器左侧温升较右侧高20℃左右,处于烟气上游的高温再热器左侧温升较右侧低10℃左右。由于烟气顺时针旋转进入水平烟道,左侧烟气速度快,对流换热更强,因此,左侧温升高,低温再热器的
机器人的信息处理与决策方法是多机器人对抗环境中的关键核心问题。然而,现阶段对环境信息感知、机器人状态估计与决策等问题仍有很多研究工作有待深入。本文以ICRA DJI Robo
随着生产性服务业在国民经济发展中的重要性不断提升,金融服务业作为生产性服务业中发展最为迅速的核心行业,对现代服务业的发展起到较强的推动作用。虽然武汉建设区域金融中
数控转台可以加装到数控机床上作为X、Y、Z平动坐标轴以外的第四轴或第五轴,它不仅可以实现回转进给,还提供精确的数控分度,并且可以联动直线坐标进给以完成复杂的曲面(例如螺旋曲面)加工,对于提高加工中心加工的效率和加工的精度有着非同寻常的作用。但随着先进制造业的快速进步,机械工业对机床性能提出了更高的要求,现有的回转工作台的动态性能已经不能完全满足市场的需要。本文以FANUC 0i Mate MD数控
持久性有机污染物(Persistent organic pollutants,POPs)可通过大气长距离迁移到人类活动稀少的极地等偏远区域,其可在生物体内富集,具有一定的毒性,对生物体及人体的生命健
面对日益恶化的重金属污染,生物修复方法也逐渐发展起来。相对于传统的理化方法,利用莱茵衣藻进行重金属污染处理具有避免二次污染、低成本等优势。本课题首先通过电击转化方
视觉目标跟踪一直是计算机领域非常活跃的研究方向,在视频监控、无人驾驶、人机交互、无人机监视、增强现实、机器人技术等多个领域具有广泛的应用。由于实际的应用场景复杂
云计算中虚拟机部署问题是根据虚拟机资源和约束限制要求进行物理节点选择的问题,以达到有效降低物理机能耗、避免物理机资源浪费的目的。云计算虽然给用户提供了前所未有的
随着人口的不断增长以及城市化快速发展,直流换流站往往建在靠近人口密集的区域,其电容器装置产生的可听噪声水平对换流站周边居民正常的生产、生活造成了严重的干扰,单台电
高熵合金是由五种或五种以上元素按照一定比例混合而成的固溶体合金,全新的合金设计理念以及独特的组织结构使高熵合金具有非常优异的性能,例如高强度、大塑性、良好的抗辐照性能以及优异的耐腐蚀行为,具有广阔的应用前景。在室温拉伸条件下,面心立方固溶体结构的高熵合金表现出较大的塑性变形,然而较低的屈服及抗拉强度限制了其工程应用。通过热机械加工的方式可以优化面心立方高熵合金的室温力学性能,但热机械加工往往改变材