基于少量语料的鲁棒性语音合成方法研究

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:yuhuile
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为人机交互的关键技术,语音合成是人工智能领域的重要研究方向之一,基于深度学习技术的语音合成方法也日益成熟,其核心是建立文本到语音的非线性关系模型,实现文本序列和语音频谱帧的特征映射关系。然而当前主流的语音合成模型面临着高质量单一音色训练数据需求较大和供给不足的矛盾以及当合成长文本时出现的重复读音、遗漏读音等鲁棒性问题。针对语音合成领域当前存在的高质量单音色语料缺乏和长文本合成鲁棒性较差的问题,本文主要进行了以下工作:(1)基于时延神经网络提取x-vectors说话人区分向量,并结合变分自编码器构建说话人表征提取网络,从目标说话人少量语料中提取说话人表征隐变量,实现少量目标说话人语料下的声学表征解耦;(2)由于主流语音合成模型Tacotron2无法基于少量语料合成目标说话人音色语音,因此将说话人表征提取网络与主流语音合成模型Tacotron2进行融合,构建能够基于少量语料进行语音合成的语音合成模型;(3)针对模型长文本合成鲁棒性问题,基于前向注意力方法,用前一时刻的语音帧的注意力分值对当前时刻语音帧的异常注意力得分进行平滑消除。同时进一步的考虑前后时刻不同语音帧影响程度的强弱,引入带约束因子的前向注意力方法对异常注意力分值进行自适应平滑。通过对模型采用标贝中文女声数据集进行训练,并对训练后的模型利用Thchs-30数据集中随机选择的目标说话人少量语料进行实验,验证了该模型能够实现基于目标说话人少量语料的语音合成。合成的语音在语音自然度和相似度MOS评分中,分别取得了3.65和3.723的分数,均接近真实语音的80%。针对模型的鲁棒性方面,选择100条文本进行验证,句错误率仅有2%,相比未采用前向注意力方法的模型,错误率降低了24%。同时在前向注意力方法中,合成语音的速率和约束因子的偏置成反比关系,证明了模型在合成语速控制方面的有效性。在语音自然度方面,分别提升了6.0%和8.5%。在语音相似度评分方面,分别提升了5.1%和7.0%,均达到了提升模型鲁棒性的目的。通过上述一系列实验验证了本文构建的基于少量语料的鲁棒性语音合成方法的有效性。
其他文献
虚拟试穿的目的是转移目标服饰图像到参考人图像上,是最近几年的热门话题。现有技术通常侧重于在生成图像上保留服饰图像的原有特征。但当参考人图像中出现大量遮挡以及复杂姿势时,生成清晰合理的试穿图像仍然是一个挑战。本文采用渐进式的生成逻辑,先生成预测语义分割图,再由预测语义分割图结合原参考人和服饰自适应地保留非目标区域,并生成目标区域的信息,完成试穿图像的构建。此外,本文采用小数据集小尺寸图像进行训练,并
学位
运用2016~2020年面源数据,采用区位商、集中系数、优势指数测算与比较全国7个苹果主产区集群集中度及竞争力。研究表明:(1) 7个苹果主产区均具有专业化优势和集群发展优势。其中,陕西省苹果产业发展优势最显著,且集群优势要优于专业化优势;山西省与陕西省专业化优势的差异较小,而集群发展优势差异较大;近5 a甘肃省苹果产业的专业化程度和集中化程度呈增长态势;山东省、辽宁省、河北省的苹果产业的专业化程
期刊
随着深度学习越发成熟,目标检测已经成为计算机视觉领域中一项非常重要的基础性任务并受到了研究者们重点的关注。该技术已经被广泛的应用在如人脸识别、动作识别、实时监测等不同领域。在目标检测领域,较为主流的算法就是通过应用卷积神经网络来对图像进行特征提取的算法。随着算法的不断改进,如何针对复杂场景下图片特征的提取,同时保证不同尺度下的特征图的平衡性成为了提高算法模型精确度和实用性的关键。当今YOLOv5算
学位
智能手机早已风靡全球,在智能手机中安卓手机占据了四分之三的份额。随着时间的发展,各种安卓恶意软件大量出现。现有的恶意软件识别方案大都是使用的监督学习方法进行分类,这种分类方法精确率高速度快,但面对新出现的样本时分类效果差,使用无监督学习的聚类算法在处理未知样本时效果要更加优秀。本论文针对分类算法处理未知样本效果差的问题,参考最大最小蚁群算法和蚂蚁排序算法以及层次凝聚聚类算法,提出了一种基于改进蚁群
学位
近年来,柔性结构与材料的大规模开发与应用对其结构的形变实时监测技术提出了许多新的要求。相比于其他形状感知技术,光纤传感技术具有抗电磁干扰、生物相容性且易于集成等特点,因此被认为是下一代传感技术的重要组成部分。目前,由于已开发的光纤形状传感技术受到光纤应变测量技术与三维重构算法等因素制约,仍存在测量精度不理想、测量离散化与高重构误差等问题。本论文针对上述问题,设计了一种具有高空间分辨率的分布式光纤三
学位
<正>近年来,陇南苹果产业逐步形成了向优势区域集中生产的格局。针对此,我们从多方面分析了目前陇南苹果产业具有的独特发展机遇与发展优势,同时提出了促进陇南苹果产业升级转型与创新优化的一系列发展措施,以期全面推动与促进未来陇南苹果产业的可持续发展。在传统农业与现代产业交替发展之际,大力保障苹果优势区域的品牌,对我市农业产业发展具有战略性意义。
期刊
据统计,2020年以来,我国境内捕获的恶意程序达261,603个,恶意软件的攻击造成的后果十分严峻。针对数量庞大的恶意软件,针对恶意软件的分类显得尤为重要,准确率更高的分类方法可以帮助我们更好的应对恶意软件的攻击。而随着恶意软件的不断进化,种类不断增多,传统的静态分类方法与动态分类方法已无法应对新兴的恶意软件,因此,本文采用多特征融合与深度学习相结合的方式,提出一种新的分类模型,经实验数据验证,分
学位
在光网络信号的传输过程中,长距离传输是一个非常重要的研究方向,光信号经过长距离传输会出现信号质量劣化的现象进而导致输出信号的光信噪比降低、接收端出现误码,所以为了提高信号的质量在长距传输中一般会加入掺铒光纤放大器、拉曼放大器、遥泵等设备和添加前向纠错码。通过使用前向纠错码能够以较低的代价提升信号的传输距离,现有的前向纠错码应用的环境基本为2.5Gbit/s速率以上的光传送网中,而千兆速率的以太网帧
学位
随着国内经济的稳步发展及车辆制造科学的不断进步,机动车保有量逐年增加,各个城市的交通问题逐渐显著,如何有效地将通信技术与信息技术相结合去解决交通拥堵的问题已经成为了当今时代的重要课题。交通流预测已经成为了一个热门的研究课题,国内外越来越多的学者投入到该领域的研究之中。近十年内,世界各国的研究学者提出了很多种不同的交通流预测方法,但绝大部分方法都是在时序层面对其进行预测,对交通流量空间相关性的研究不
学位
为了厘清新的气候期(1991-2020年)陕西北扩区苹果气候适宜种植区的精细化分布,揭示该区域苹果可发展种植潜力,本文基于陕西苹果产区气象观测、数字高程模型、耕地确权等多源数据资料,综合考虑陕北山地苹果种植的气候与立地条件需求,选取年平均气温、年降水量、6-8月空气相对湿度、6-8月平均最低气温、1月平均气温、坡向、坡度共7项因子作为区划指标,采用多元回归方法进行各气候因子空间化模拟推算,基于模糊
期刊