说话人聚类系统关键技术研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:liuzixing0210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人聚类用于解决“谁,何时,说话”问题,是语音信号处理领域中的重要技术。说话人聚类算法主要应用在会议语音记录分类、语音识别预处理、声音类别检测、说话人识别等诸多研究方向,因此具有重要的研究意义。此前,说话人聚类算法主要集中在单个说话人场景下的会议记录,通话记录等简单的语音场景,已取得了良好的性能表现。然而在复杂的“鸡尾酒会”场景下,多说话人同时说话情况下(overlap)的说话人聚类问题,到目前为止,依然是当今的说话人聚类问题的研究难点之一。本文对说话人聚类方法uis-rnn进行研究与改进。Uis-rnn是一种以全监督方式实现说话人聚类任务的方法,本文对uis-rnn的说话人转换概率问题提出了改进算法,并提出使用说话人数量估计方法,预先估计说话人总体数量,改进了 uis-rnn的决策方法,增加聚类细分(resegment)部分,降低聚类的估计误差。最后本文基于uis-rnn实现了 overlap场景下的说话人聚类系统。在说话人数量估计任务中需要同时满足上述的两个需求:一是估计非固定长度的语音数据整体的说话人数量,二是检测每一个固定长度的的短语音片段中同时说话的说话人数量,即overlap检测。因此本文的另一个贡献是提出了支持变长数据输入的说话人数量估计方法,基于GST模型结构的说话人数量估计方法。对比目前说话人数量估计方法,基于CRNN的方法count-net,本文提出的说话人数量估计方法支持变长数据的输入,在说话人数大于等于5的情况下,本文的说话人数量估计方法能获得更加准确结果。此外结果表明,本文提出的基于GST模型结构的说话人数量估计模型在240ms下取得小于0.2的MAE误差,在变长的语音数据下能够实现小于0.4的平均MAE误差,证明其对变长语音数据的说话人数量估计结果的有效性。本文通过实验结果表明,在改进说话人转换概率估计的方法后,说话人聚类结果有效提升,DER下降2.6%。uis-rnn增加resegment机制后,说话人聚类效果获得明显的提升,DER下降达6%左右,实现了在非overlap场景下的6.18%的DER结果,baseline系统获得14.84%的 DER。此外,本文提出的针对overlap的说话人聚类方法能有效的在overlap情形下实现说话人的多标签聚类,并在手动合成的overlap语音数据上获得9.76%的DER。
其他文献
随着环保意识的增强,NO_X的排放控制已引起世界各国的广泛关注。以NH_3为还原剂的选择性催化还原法(SCR)是应用最为广泛和脱硝效果较高的烟气脱硝技术,而研制、开发出高效的催化剂是NH_3-SCR技术的核心。利用稀土金属催化还原脱除NO的催化剂是具有研究前景的脱硝催化剂之一。近年来,大量的研究发现改性稀土精矿作为SCR催化剂在300~350℃的温度窗口具有较好的脱硝性能,然而,锅炉烟气中存在较多
在工业伺服控制系统中,永磁同步电机(Permanent Magnet Synchronous Motor,PMSM)由于具有高功率密度、转矩电流比高等优点而被运用在各种场合。然而永磁同步电机由于自身非线
主动磁轴承作为一种新的高性能轴承,优势众多,具有很大的发展前景。磁轴承系统中,控制器的设计直接关系到性能指标的好坏,是整个数字控制系统的核心。作为一个典型的非线性且存在耦合的系统,其准确模型难以得到,这使得很多对模型精确程度要求高的控制算法没有办法直接使用。因此,采用对系统模型依赖程度不高的算法对磁轴承系统具有非常重要的意义。本文设计了基于TMS320F2812的磁轴承数字控制平台,并基于该平台进
改革开放以来,我国经济建设成果举世瞩目,但随之出现的环境问题也日益凸显,并不断引发环境群体性事件。环境群体性事件的频发高发已成为制约我国经济社会发展的重要因素,因此
催化剂在化学领域有着非常重要的作用,接近95%的化学产品都会涉及到催化剂,大部分的化学反应都需要在催化剂的辅助下进行。其中金属催化剂更是非常重要的工业催化剂,已经成为化工工业中不可替代的一份子,此外金属催化剂在环境污染的治理中也扮演者越来越重要的角色。高效率和高资源利用率一直是人们不懈的追求,因此制备更高效、更稳定的催化剂仍然是目前的研究重点。本文主要从材料的形貌和结构出发,通过控制金属银催化颗粒
艾滋病(获得性免疫缺陷综合征,简称:AIDS),由人体免疫缺陷病毒HIV病毒入侵人体,破坏人体免疫系统,最终导致死亡的恶性传染病,极大的威胁着世界人民的身体健康。对于HIV感染高危人群,应积极检测;对于已经确认感染人群,应早诊早治,有效阻断疾病进展。在HIV感染早期(1周),病毒感染巨噬细胞通过血脑屏障进入神经中枢,引起神经细胞慢性长期损伤,即便进行抗逆转录病毒治疗,仍有至少50%HIV感染者发生
随着青藏铁路、哈齐高铁、川藏铁路等一大批重大冻土工程的实施,以及对寒区环境生态的深入研究,促使了大批冻土监测项目的上马。由于冻土地温是一个非常缓慢的变化过程,需要对其进行长期的监测,同时对于冻土的相关监测,需要在同地质、同气象等条件下,才能对其监测的数据进行有效分析,因此以往独立建设、互不相关的“孤岛”方式已不能适应现时及长远的监测需求。中科院冻土工程国家重点实验室与西安工业大学共同建设的“中国冻
随着计算机技术和电力电子技术的发展,交流伺服控制技术在日常生产生活和工业生产制造中的应用越来越广泛。然而在实际应用的过程中,伺服控制系统中总是存在各种不确定干扰,
自1999年Zwilling等人报道了用简单的电化学阳极氧化法制备TiO_2纳米管以来,TiO_2的纳米管结构逐渐引起了各领域科研人员的极大关注。与TiO_2薄膜相比,其纳米管结构具有良好的陷光效应、一维导电通道、大的比表面积以及独特的光、电性能,因而在很多领域诸如传感器、太阳能电池、光催化、生物医学以及微型电子集成器件等方面具有广泛的应用价值。首先,基于TiO_2纳米管生长的基底材料以及形貌结构
目前我国面临着严重的雾霾污染问题,并且有逐渐从区域性大气污染演变为全国性大气污染的态势,给我们的生产生活带来了极大威胁,面对跨行政区域的复合型大气污染,传统的以单一行政区划为界,各自为政的属地管辖治理模式达不到真正的治理目的,严重影响了区域污染的整体治理的效果。在此背景下,迫切根据我国雾霾污染的具体情况,探求一条符合我国雾霾治理实际的有效路径。由于雾霾污染具有流动性,其产生和影响都不只是特定的地区