基于对抗网络的情感语音合成研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:michael2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习技术的发展,为各行各业带来了蓬勃的生机。特别是语音合成技术中,深度学习取得了巨大的成功。以Tacotron为首的端到端的语音合成技术使构建语音合成系统变得更加简单的同时,也使得合成的语音具有更高的可懂度和自然度。今天,语音已经逐渐的走入了我们的生活中。各种语音助手、语音交互功能方便着我们的生活。目前的语音合成技术依然存在瓶颈,还是停留在能发出人类听得懂的声音这个阶段,还无法实现情感的表达,无法像人一样进行生动的演说。这一点是目前制约着语音合成系统迈向更广泛应用的关键。于此同时,端到端的语音合成系统刚发展不久,有关情感的研究也才刚刚起步。这也是目前语音合成领域普遍研究的热点问题。
  对抗生成网络自提出起便受到了广泛的关注,立刻在计算机视觉领域掀起了波澜。对抗生成网络有诸多的应用,包括生成以及乱真的照片、转换图片的风格等等。至今对抗生成网络依旧使生成模型最火热的研究方向之一。与对抗生成网路在计算机视觉领域的热门不同,鲜有人使用对抗生成网络进行语音的生成。
  受到对抗生成网络在图像风格转换领域的成功的启发,本文将对抗生成网络与Tacotron2相结合,构建了一个全新的情感语音合成系统。该系统以文本和韵律特征作为输入,来合成具有情感的语音。情感语音合成系统主要包含语音合成和韵律提取两个模块。其中语音合成模块是一个Tacotron2模型。韵律提取模块从一段语音中提取韵律特征,作为Tacotron2的输入。本文通过传统的机器学习的方法对韵律特征进行了筛选,保证了提取到的韵律特征和情感具有较高的相关性以及特征之间具有较小的共线性。最后本文使用了条件对抗生成网络的思想对模型进行了训练。判别器负责对生成的语音的情感进行约束,生成器负责对声音进行拟合。最终得到了一个可以通过修改输入的韵律特征,来自由控制输出语音的情感的情感语音合成系统。
  本文在可懂度和自然度两个方面对模型进行了评价。其中可懂度我们采用了语音识别系统的错词率和主观的MOS评分进行评价,结果显示本文的模型错词率和MOS评分远超过Tacotron2,并且与GSTTacotron2持平。在自然度方面我们采用了梅尔倒谱误差、基频误差对模型进行了评价,结果显示我们的模型在基频误差上比GSTTacotron2模型要低15%,在梅尔倒谱误差上与GSTTactron2持平,证明了本文提出的模型在自然度的表达上优于GSTTacotron2。
其他文献
【摘要】水闸设计关系到整个水利水电工程质量,因此在水闸设计时,要充分考虑好实际情况,对周围的环境有一个详细的调查和研究,对其设计的各个方面都要严格按照要求来执行,从而保证水利水电工程安全运行。基于此,本文阐述了水闸工程的主要作用,对水利水电工程中的水闸设计要点及其注意事项进行了探讨分析。  【关键词】水闸工程;作用;水利水电工程;设计要点  水闸对于水利水电工程安全运行非常重要,并且水闸的科学设计
期刊
在看完上面令人眼花缭乱的八国美食后,你是不是已经对这些美食开始无限遐想了昵?在美食上,中国人永远都可以自信满满,中餐在世界上大名鼎鼎,它以其无与伦比的独特魅力风靡全球,而同时中国也迎来了其它国家的特色美食,走在大街上你会发现很多异国餐馆,无论是身处国外的中式餐馆,还是建在中国的异国饭店,不同的是菜式,相同的是美好的味道,不同的是风格,相同的是幸福的感觉。
期刊
【摘要】随着科学技术的发展,我国的机电工程技术有了很大进展,这不仅能够提升各个行业发展水平,对于推进各个地区经济发展也起到非常重要的作用。为保证机电工程技术的应用范围得以扩展,应对机电工程技术进行综合分析,以加深相关人员对机电工程技术及其自动化问题的了解,确保机电工程技术在各个行业中发挥自身最大的作用。  【关键词】机电工程技术;自动化;机械制造  引言  科技在进步,时代在发展,科学技术逐渐与其
期刊
5G时代移动设备产生了海量数据,其中大多数是多媒体内容。通过无线网络传输如此规模的多媒体内容将会消耗大量无线频谱资源,进而导致网络拥塞和较长的服务时延。目前比较好的解决策略是通过在网络边缘(例如移动边缘计算(MobileEdgeComputing,MEC)中的基站)处缓存内容来减轻核心网的负载压力。然而,仅仅利用边缘缓存可能无法在高峰时段内应对激增的流量。
  本文面向地面网络的频谱资源短缺挑战,提出利用卫星网络来增强地面网络的性能,并设计边缘计算使能的天地一体化信息网络(Space-Ground
低功耗物联网(Internet of Things,IoT)技术的蓬勃发展促使各种轻量化物联网设备在智能家居及智慧工厂等场景下得到广泛应用。物联网设备的轻量化设计在开辟众多可能性的同时,却使得通信过程极易遭受攻击者恶意的主动攻击(Active Attack),这给物联网系统带来了严重的安全挑战。然而,轻量化物联网设备由于缺少诸如触摸屏、输入键盘等用户界面,难以支持传统的基于预共享密钥(Pre-Shared Key,PSK)的安全协议。现有的物理层认证方案要求物联网设备配备相对较昂贵且笨重的多天线阵列或者特
【摘要】以十九大重要精神为引领,加快各行业转型升级,提高发展质量和效益,为中国特色社会主义现代化强国建设添砖加瓦,是未来各行业长期的政治任务和战略重点。内河水运作为与经济全球化接轨最早的行业,在“一带一路”倡议指导下,应加快供给侧结构性改革,加快转型升级,加快自身服务质量和服务效率提升,发挥在“交通强国”建设中的引领作用,促进国家战略深入实施,打造全球航运物流服务网络,为我国成为制造强国、贸易强国
期刊
【摘要】水利水电工程建设中的围堰作用主要是防止水利水电工程在施工过程中受到水的干扰,并且围堰施工可以实现泥土和水的分离,因此为了充分发挥其所具有的功能,本文阐述了水利水电工程建设中的主要围堰结构形式,对水利水电围堰施工要点及其策略进行了简要分析。  【关键词】水利水电工程建设;围堰结构形式;围堰施工要点;策略  一、水利水电工程建设中的主要围堰结构形式  水利水电围堰结构形式主要有:(1)土石围堰
期刊
自动调制识别(Automatic Modulation Classification, AMC)是指在没有或者缺乏调制参数以及链路特性等先验信息的条件下用于评估未知信号调制类型的一种信号处理技术,在电子侦察、通信对抗、干扰识别、频谱监测等军事和民用领域有着广泛的应用。近年来,随着无线通信技术的迅猛发展,信号调制方式日益增加,信道传输环境也日趋复杂,这极大的增加了调制识别的难度。为此,如何设计一种高效的调制识别方法成为无线通信领域亟待解决的难题。
  本文致力于对多种调制类型、强干扰信道条件下的无线通
【摘要】由于在运用电动机时被较多因素所干扰,比如影响电动机的内部以及外部因素,进而发生故障问题,不但对设备的正常运行造成极大的影响,并且还影响了工业企业的正常生产活动。近年来,我国电力行业得到快速提升,很大程度的提高了电动机的制备能力,并且其质量也不断提升,从而降低了电动机运行过程中的故障。但是,目前在电动机运行过程中依然存在一定的故障,从而一定程度的阻碍着生产活动的进行。本文就通过介绍交流异步电
期刊
正交时频空(Orthogonal Time Frequency Space, OTFS)调制技术为处理时变多径信道中的高多普勒频移问题提供了巨大的潜力,其关键思想是将时频域内随机衰落的信道转换成时延-多普勒域中稳定非衰落的信道,从而使得每个信息符号都会经历恒定的平坦衰落。本文致力于采用仿真的方法对水声OTFS通信系统进行研究,同时基于统计水声信道模型与Watermark(Underwater Acoustic Channel Replay Benchmark)实测信道数据分析OTFS调制技术应用于水声通信