【摘 要】
:
语音转换(Voice Conversion,VC)是一种将原始音频通过音频处理变成另一种风格的声音的技术。语音转换的有很多应用场景,最常见的是在语音合成(Text-to-Speech Synthesis,TTS)
论文部分内容阅读
语音转换(Voice Conversion,VC)是一种将原始音频通过音频处理变成另一种风格的声音的技术。语音转换的有很多应用场景,最常见的是在语音合成(Text-to-Speech Synthesis,TTS)中用有限的语料数据帮助构造语料库。另外,语音转换在语音修复、语音翻译和语音安全相关的技术中都起到了重要的作用。在语音转换中,说话人转换是最重要的任务,也是本文研究的主要对象。语音转换技术根据语料的情况可以分为平行语料的语音转换和非平行语料的语音转换。平行语料的语音转换一般指已有原始说话人和目标说话人的语料,且这些语料的文本内容一致;非平行语料的语音转换则一般不具备相同文本内容的语料。对于平行语料的语音转换技术,本文提出了一种文本信息帮助下的神经网络算法,通过语音识别技术对音频解码和对齐得到音素序列,用语音活动检测得到更精准的语音边界。在音素序列的帮助下,用动态时间规整算法得到更精准的帧级别对齐结果,用长短时记忆循环神经网络对声学特征和音素序列建模,得到目标的频谱特征。实验表明,该系统在主观测试与客观指标上相较基线神经网络系统都有明显提升。对于非平行语料的语音转换技术,本文提出了一种基于对偶学习的神经网络模型,用少量平行语料的预训练得到性能较差的初始化模型,同时训练原始说话人转目标说话人与目标说话人转原始说话人两个转换模型,并且用模仿检测模型作为中间监督模型,保证两个模型的中间产物始终为正常的语音频谱特征。实验表明,该系统在客观指标不偏离正常范围的情况下,在主观测试中能胜过初始化转换模型,证明了对偶学习在欺骗检测模型起到正常监督作用的情况下,可以有效地利用非平行数据提升转换模型的性能。
其他文献
肺性脑病是由通气功能不全所致的动脉血二氧化碳急性或慢性潴留加重时所产生的脑部神经系统症状,是一组临床综合征.因多为老年患者,易并发多脏器功能不全,病死率较高.我们自1
患者女,72岁.以发作性胸痛3个月,加重3天为主诉入院.入院时查体,BP130/80mmHg,两肺未闻及干湿啰音,心界不大,心率76次/分,律齐,各瓣膜区未闻及杂音.心电图Ⅱ、ⅢaVF导联,ST段
蛛网膜下腔出血(SAH)是神经科常见病,以突发剧烈头痛伴恶心、呕吐、脑膜刺激征、血性脑脊液为特征.以往采用内科常规治疗为主,多予降低颅内压、止血、防治脑血管痉挛、营养脑
阐述水利水电工程建设项目水资源论证的意义、目的和内容,并以庙塘水库工程为例,对水资源论证报告中区域水资源状况及其开发利用分析、取用水合理性、取水水资源论证、取水和
对阜蒙县大中型水库移民后期扶持项目实施工作从立项、实施、存在的问题进行了总结.针对实施过程中存在的问题,探索出从制度、组织保障措施到管理、监督、评估机制等方面加强
运用ANSYS有限元理论,对叠合结构受力过程进行模拟分析.通过对比,得出叠合参数αh对叠合结构受力性能的影响区间.
物流不是简单的“物”和“流”的组合 ,是物质资料从供给者到需求者的全过程。五十年代以前只有独立的第三方仓储、第三方运输 ,五十年代以后 ,逐渐产生了第三方物流。第三方
在各学科研究领域中,因果关系普遍存在,如身高影响体重、企业形象影响企业绩效、班级氛围影响学生成绩等,因果关系研究一直是实证研究的热点。在因果关系中,线性因果关系是主
针对长时间使用电脑造成的视疲劳问题,研制出了爽目电脑护眼仪.该护眼仪采用双向光干预技术,其中,纵向光采用8000K色温的仿自然光光源,横向光通过特殊设计的护眼色谱卡后变为波段
受全球性金融危机以及美元加息的影响,世界经济持续维持低迷增长的态势,国际外需放缓,以及国内人民币升值,劳动力成本逐年上涨,自2000年以来中国外贸出口保持的持续快速两位