【摘 要】
:
歌声合成声码器是将梅尔频谱、基频等声学特征转化为歌声的一种算法,是语音合成声码器在歌声领域的技术延伸,是歌声合成系统不可或缺的重要组成部分。近年来,深度学习算法逐渐在语音场景下得到应用,各种神经网络模型的声码器得以提出,使得语音合成领域得以快速发展。但是以歌声合成为主体的声码器研究相对较少,且现有的声码器技术依然存在合成效果不佳或合成实时率无法达到要求的情况。这些问题都严重制约了歌声合成技术的发展
论文部分内容阅读
歌声合成声码器是将梅尔频谱、基频等声学特征转化为歌声的一种算法,是语音合成声码器在歌声领域的技术延伸,是歌声合成系统不可或缺的重要组成部分。近年来,深度学习算法逐渐在语音场景下得到应用,各种神经网络模型的声码器得以提出,使得语音合成领域得以快速发展。但是以歌声合成为主体的声码器研究相对较少,且现有的声码器技术依然存在合成效果不佳或合成实时率无法达到要求的情况。这些问题都严重制约了歌声合成技术的发展与实际工业应用。本文以多说话人歌声数据集为研究主题,设计了 一种通用的基于生成对抗网络的多判别歌声合成声码器。主要研究工作包含三个方面:(1)研究现有生成对抗网络声码器Me1GAN和Parallel WaveGAN在多说话人歌声数据集上的效果表现,分析了现有生成对抗网络声码器存在的问题并尝试了一些改进方案;(2)针对存在的问题,本文设计了基于生成对抗网络的多判别歌声合成声码器,该声码器输入引入了由基频构建的激励源,并设计了多窗口多频带判别器,以保证生成歌声频带重建的准确性;(3)分析多判别歌声合成声码器依然存在的问题,进行优化,重新设计膨胀卷积层并构建了自适应特征学习模块AFL,最终验证评估该声码器的合成效果与合成的实时率。通过上述研究,本文设计的基于生成对抗网络的多判别歌声合成声码器,在多说话人歌声数据集上合成的歌声效果MOS评分达到了 4.0,同时在2.6GHz的CPU上进行运行测试,实现实时率RTF<0.7,基本达到工业应用要求,已进行商业应用。
其他文献
目的探讨认知行为护理干预在血液透析(HD)合并抑郁症患者中的应用效果。方法将86例HD合并抑郁症患者随机分为两组,每组各43例。对照组接受常规护理,观察组在此基础上实施认知行为护理干预。比较两组干预前和干预3个月后抑郁心理状态评分、肾功能指标及治疗依从性。结果干预前两组PHQ-9评分、肾功能指标无统计学差异(P>0.05)。观察组干预3个月后PHQ-9评分、肌酐、尿素氮均低于对照组,治疗依从性高于
棚户区改造作为改善城镇居民住房的一项民生工程,对于改善城乡二元结构、改善城镇困难家庭住房条件、提升市容市貌、促进可持续发展具有重要意义。自2006年推行以来,棚户区改造受到各界普遍关注,也成为学术界研究的热点。然而,全国范围的大规模棚户区改造项目却各有千秋,有成功的典型,也有不如意的教训,那么如何界定某地区棚户区改造项目的绩效就成为一个重要课题。义乌市是中国首个也是唯一一个在县级市国家级综合改革试
随着制造强国战略方针的推进,中小型制造企业的搬运上下料机器人智能化改造需求变得更为迫切。目前存在的改造方案主要有两种:定制物料定位装置,配合人工示教和离线编程,设备成本较低但是需要耗费额外的人力成本;传输带配合关节机器爪,智能化程度较高但是场地要求高、设备成本高。本文从中小型管道工件搬运问题出发,设计了基于空间点与空间圆建模的辅助抓取系统,以三维建模算法层面的改进兼顾低成本的改造方式和较少的人工干
本文是在新冠肺炎疫情的大背景下,基于智能手机设计了日落时差法、太阳仰角差值法和GPS定位法三种方法进行地球半径的测量,本文所提供的实验方法不需要专业的物理实验测量工具并可以居家完成,其中日落时差法和太阳仰角法法测量得到的地球半径分别为6246km和6239km,测量的相对误差分别为2.0%和2.1%;GPS定位法中设计了同经度取点、同纬度取点和任意取点三种取点方法,测量得到的地球半径分别为6432
中子能谱的测量是核辐射探测领域的一个重要研究课题,它在整个中子辐射防护检测中具有重要地位,与中子辐射剂量关系密切.多球中子谱仪是进行中子能谱测量的常见工具,具有非常多的优势,首先操作简单方便;其次功能强大,主要表现在测量范围上,相比较于其他类似设备来说要大许多;最后在灵敏性方面十分出色.本研究分别采用水和聚乙烯作为多球中子谱仪的慢化体,使用蒙特卡罗程序Geant4,计算了10-9~102 MeV能
随着物联网在经济社会的各个领域的广泛应用,物联网设备的数量呈现了爆发式增长。因此,B5G蜂窝物联网需要采用大规模多输入多输出技术,以实现广域范围内大规模物联网设备的接入。但是,传统的大规模多输入多输出技术存在高成本和高功耗的问题。在这种情况下,本文结合各种低成本低功耗硬件以及技术提出了三种大规模接入设计方案。首先提出了一种低硬件成本的大规模接入方案。结合低精度模数转换器(ADC)和有限数量射频(R
在室内定位技术中,应用最广泛的就是Wi Fi无线传感器。目前大多数基于Wi Fi室内指纹定位都采用两阶段法,第一阶段通过离线收集并记录RSSI信号数据,利用相应算法模型拟合其坐标,第二阶段在线测试,评价定位的精度。虽然两阶段指纹定位有较好的表现力,但随着时间和环境的变化,其定位精度会显著下降。其主要原因在于模型无法适应RSSI信号随着时间、温度、湿度等所发生的漂移,导致定位模型的退化。如何实现Wi
随着大数据时代的到来,学术研究也步入新的范式,该范式最为突出的特征便是数据的密集应用。为了规范科学数据的引用,从而提升科学数据的可获得性和复用性,越来越多的机构致力于提升科学数据引用规范。由此带来的是,与科学数据引用相关的政策和实践也逐步发展。科学数据是科学研究的重要产出之一,在数据引用越来越成熟的当下,如何评价科学数据的影响力成为亟需解决的问题。针对上述问题,以往研究主要通过对数据引用进行统计分
语音唤醒作为人机语音交互入口,实现高准确率和低误唤醒率是良好体验的基础。同时为了适应移动设备的计算条件,对于内存和计算资源占用也要求尽可能低。针对唤醒表现和资源占用这两个需求,领域研究重心从基于隐马尔可夫模型的方法,转向使用简单后处理的神经网络方法。在基于帧对齐数据的交叉熵训练准则中,广泛应用的是深度神经网络(DNN)和卷积神经网络(CNN)。针对普通卷积网络在跨通道操作计算量大的特点,可对跨通道
土地利用信息数据是进行国土资源管理的基础和重要依据,随着我国经济水平快速发展,城市化进程不断推进,土地资源利用的问题逐渐凸显,开展土地利用资源调查与研究有着重大的现实意义。土地利用调查涉及的范围广、信息量大,遥感影像数据以其快速、准确、覆盖广和获取方便等优势成为土地利用信息调查最高效的数据源。20世纪90年代以来,高分辨率遥感技术发展迅速,更高的空间分辨率带来了更丰富的空间信息、地物几何结构和纹理