情感语音说话人认证方法及实现

来源 :危卓 | 被引量 : 0次 | 上传用户:suzuzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于说话人认证系统,用户在注册时一般处于平静状态,而说话人在非中性情感状态下的语音相比于平静状态时会发生较大的改变,这种注册语音和测试语音的情感失配会导致系统的性能急剧下降。出于用户使用的友好度,系统不应要求用户在注册时模拟各种情绪语音,因此进行情感语音说话人认证的研究对提升说话人认证系统的稳定性具有重要意义。目前,情感说话人认证技术方案通常是为每种情绪分别训练一个模型,因此在多种情绪环境下应用时需要存储不同情感对应的模型参数,同时说话人认证系统能否取得预期效果很大程度上受情绪识别性能优劣的影响。本文针对文本无关的情感语音说话人认证任务进行研究,主要工作及贡献有以下几个方面:1、本文对比不同情绪状态下的语音在三种说话人相关的基础声学特征上的表现差异,并利用i-vector算法进行说话人认证实验,通过情绪匹配和情绪不匹配的多组实验证明了情绪的不适配会极大损害系统性能。2、针对不确定情感语音的说话人认证问题,本文基于x-vector搭建说话人分类的单任务学习系统,然后结合情绪分类任务,基于单任务学习网络构建多任务学习网络。由于数据集中情感信息的有限性,本文引入并改进了跨梯度训练流程以适应情感语音说话人认证任务,最终在有26人的测试集上等错误率为6.986%,相比于原始的x-vector系统,相对下降了15.66%。3、针对限定情感语音的说话人认证问题,本文在第三章介绍的网络模型基础上对声学特征的不同阶数进行简单加权,并根据广义端到端损失函数设计了基于情感信息的端到端损失函数。考虑到某一种情绪语音的数据量过少,将训练好的不定情感语音的说话人认证网络作为预训练模型,利用特定的一类情感语音和中性语音作为训练数据,对网络参数进行微调。对于不同非中性情绪下的说话人认证,等错误率相比于预训练模型降低0.116%—0.579%。4、本文实现了一个情感语音说话人认证的安卓应用,该应用包括两种模式:不限定语音情感的说话人认证和限定语音情感的说话人认证。经过30个人参与系统实测,实测性能与在数据集上的实验性能相当,具有一定的实用价值。
其他文献
在言语产出中,人们倾向于使用刚刚听到或看到过的句法结构,这种现象句法叫启动(syntactic priming),又称结构启动(structural priming)。基于该现象,心理语言学家将句法启动发展为一种重要的实验范式,并广泛用于探究被动、双宾等句法结构的心理表征。本研究采用一种新的句法启动范式来探测中国英语学习者产出汉、英被动句过程中的句法启动效应,为揭示其双语心理表征机制提供证据和启示
学位
本论文结合德里达有关文字与药的论述和苏珊·兰瑟的女性主义叙事学,分析了“药”在《送奶工》中的隐喻意义,揭示安娜·伯恩斯如何通过“她史”叙述,打破了菲勒逻各斯中心主义叙事方式,重写了被官方历史虚构遮蔽的“女性”在北爱“问题时期”遭遇的历史真实。《送奶工》是北爱尔兰第一部布克文学奖得主。伯恩斯从女作家的独特视角,借助被视为“精神失常”的“中间妹妹”的叙述声音,讲述了北爱女性在“问题时期”的经历。然而,
学位
低温豆粕是大豆榨油的副产物,富含具有降脂活性的大豆蛋白、低聚糖和多糖,是开发降脂活性植物基健康食品的优质原料。然而,传统大豆蛋白、低聚糖和多糖的提取以多阶段、多步法为主,往往聚焦于单一成分,涉及多种试剂添加、去除、耗时长、效率低且工艺复杂,全利用、共提取的策略少。另外,大豆乳清蛋白中含有抗营养因子,传统技术难以兼顾大豆蛋白全利用、抗营养因子含量少的需求;况且大豆低聚糖、多糖对大豆蛋白营养、功能特性
学位
随着我国经济水平的增长,社会对教育建筑的需求总量及其内部光热环境质量要求大幅提高。相关研究表明,我国学生主要学习时间中超过80%是在学校教室内度过的,其内部环境的光热舒适性对学生身心健康和学习效率有着很大影响。而受气候条件影响,广州地区教育建筑空调被大量使用,导致能耗激增,节约能源也成为提高建筑舒适度同时必须要考虑的因素。在此背景下,提高中学教室室内光热舒适性和减少能耗成为当前教育建筑设计急需解决
学位
本翻译报告基于文本《澳大利亚考生普思考试教师版(口语)应试过程、策略及涉考者态度研究》英译汉翻译实践进行撰写。源文本主要探讨了澳大利亚普思教师版口语考试和教师英语口语能力之间的关系,同时研究了考生在该考试中的应试过程和策略以及涉考者对该考试的看法。普思教师版的考试内容具有独特的灵活性和便捷性,涉及教师所熟悉的日常工作主题与场景。该汉译本有利于中国考生更深入地了解普思教师版考试,同时加深涉考者对国内
学位
随着物联网的快速发展,无线通信对低成本和低功耗的持续需求推动着射频前端的研究,其中锁相环占有重要地位。在纳米CMOS工艺中,全数字锁相环因其灵活性、可配置性、面积小和易于移植的特点而受到人们的青睐。同时,无线通信领域的各种协议都对锁定时间有着严格的要求,使得快速锁定的全数字锁相环成为了锁相环领域研究的重要课题。本文研究设计了一款能够实现快速锁定的全数字锁相环,主要工作包括:(1)提出了改进的调谐码
学位
微博作为用户量最多的社交媒体平台,以其便捷性、传播性、低门槛和高交互性等特点成为人们表达和传播观点及情绪的重要渠道,在信息传播方面具备天然的优势。因此,对于企业来说,借助官方微博可以树立企业形象、宣传营销产品、维系新老客户关系、促进与用户之间的深度沟通。但是并不是每条官方微博所发布的信息对用户产生的反响都能达到正向的预期值。例如,有一些微博的被关注度和讨论量低下,又有一些微博内容频频遭到用户的“吐
学位
经济新常态下,孵化器作为创新创业的有效载体,成为政府激发市场创新潜力的关键抓手。在政策的大力支持下,我国科技企业孵化器不仅发挥了培育高新技术企业、打造创新集群的重要作用,其自身也呈现出了集群化发展的新趋势。孵化器集群表现为具有产业关联的多个孵化器在区域内聚集并相互竞合,整合社会资本与创新创业资源,与政府管理、技术支持等社会系统融合形成集约高效的网络价值链群,为区域创新和产业升级提供了有力支撑。尽管
学位
儿童文学以儿童为主要的读者对象,具有独特的写作风格特征。在儿童文学作品翻译过程中,如何还原原作风格往往成为译者面临的难点。刘宓庆(1990)指出,风格是可以识别的,它可以见诸于“形”而表现为风格的符号体系。本研究参考刘宓庆的翻译风格论,聚焦风格标记中的形式标记和非形式标记,分析如何通过续译来促成儿童文学作品翻译风格的构建。“续译”是王初明(2016,2018)基于“续论”学习观提出的翻译技能训练手
学位
翻译报告的原文选自任俊教授和应小萍教授所著《乐商:一个比智商和情商更能决定命运的因素》的第五章,原文详细介绍了“乐商”这一概念以及具体相关内容,阐述如何培养人的积极力量,帮助人们找到一条提高快乐或幸福的有效途径。此外,该书还介绍了什么是习得性无助,并引导人们发掘自身的积极力量。对该书进行英译有利于外国读者更深入了解中国积极心理学的发展状况,并能为西方心理学学者提供资料参考。相较于其他翻译理论,赖斯
学位