【摘 要】
:
人声转录作为转录任务中的一个重要分支,在近几年逐步受到了音乐计算领域学者们的关注。然而由于人声发音的不稳定性以及大型歌唱声起始点(onset)标注数据集的缺乏,对音乐中的人声进行onset检测(转录的关键性步骤)的难度远大于乐器。人声转录的效果因此受限,无法有效应用于实践。鉴于此,本文基于流行音乐进行了人声转录研究,主要研究内容与成果如下:1)提出了一种基于人声活动检测的音频切句算法。本文使用该算
论文部分内容阅读
人声转录作为转录任务中的一个重要分支,在近几年逐步受到了音乐计算领域学者们的关注。然而由于人声发音的不稳定性以及大型歌唱声起始点(onset)标注数据集的缺乏,对音乐中的人声进行onset检测(转录的关键性步骤)的难度远大于乐器。人声转录的效果因此受限,无法有效应用于实践。鉴于此,本文基于流行音乐进行了人声转录研究,主要研究内容与成果如下:1)提出了一种基于人声活动检测的音频切句算法。本文使用该算法对中文流行音乐进行智能切句操作,使预处理后的音频在满足后续onset识别模型的时长要求的同时规避单字切开问题。2)在语音训练集上训练出一个高精度的人声onset模型,能够准确地识别转录所需的音符切分时间点。本文首次将U-Net网络引入人声onset识别任务中,提出了一种将单通道声谱图转为多通道声谱图的输入格式优化策略,并通过序列正例辐射和基于Dice系数的损失函数解决序列数据集极度不平衡的问题。3)构建并开源了一个小型中文流行音乐人声onset标注测试集,将语音数据集上训练的模型迁移到真实音乐场景中进行测试。同时,本文提出了可信度过滤层和呼吸音过滤层对迁移后的识别效果进行优化,使模型在真实音乐场景中取得了较好的人声onset识别效果。4)提出了一种最近邻音名匹配的音符块音高选择算法。本文在实现Harvest音高识别算法并将其运行速度优化至原来10倍的基础上,使用该算法计算音符块的精准代表音高。综上所述,本文提出了一套完整的人声转录解决方案,能够智能识别onset时间点与音高信息,在不借助歌词信息的情况下生成准确的MIDI格式的转录谱。
其他文献
随着我国城镇化建设进入新的发展阶段,对城市公共服务设施的需求进一步扩大。而作为传统公共服务提供者的地方政府,由于受债务余额过大及国家加强地方政府债务管理等因素影响
本文以三亚的景区公示语为例,从翻译目的论的角度探讨三亚景区的公示语翻译问题。如今我们所居住的世界已变成了一个地球村,全球经济也日益一体化,来自不同国家的人们之间的
以黄豆、红枣粉、红豆粉和枸杞粉为植物蛋白饮料的主要原辅料,研究此植物蛋白饮料的配方及其理化性质。以感官评价为指标,通过单因素实验和正交实验,考察了黄豆与辅料(红枣粉
核桃(Juglans regia L.)和铁核桃(J.sigillata Dode.)均隶属于壳斗目胡桃科(Juglandaceae)胡桃属(Juglans)胡桃组(Section Dioscaryon或Sect.Juglans),为第三纪“孑遗植物”。其中核桃广泛分布于北半球温带地区,为重要的经济树种,因其坚果和木材具有很高的营养和药用价值,生态价值,故而体现出超高的经济价值。铁核桃为胡桃属植物
阿拉伯文化在世界文明史上占有承前启后,沟通东西的重要地位。阿拉伯人用他们光辉的成就为人类作出了伟大贡献。阿拉伯文化为什么会取得如此辉煌的成就,—些人认为是由于“阿
中国古代人学思想有着特定的现代价值:一是礼法促进社会秩序化的治标作用,礼法及其伦理秩序,规范整合了整个社会生活并使之秩序化;二是“谐万民”,促进社会和谐化的治本目的,
介绍了在Windows环境下用VFP6设计和实现高校体育课学生信息管理系统的方法与方案.并集中阐述了本系统的设计思想,系统的特点,系统的主要功能结构和实现.
本文详细地研究分析了港口库场货物管理信息系统的目标体系、功能、运行环境和数据管理,给出了其逻辑设计。
肠梗阻是一种常见的临床外科急腹症,是指肠腔由于机械性梗塞或不可逆的生理位置改变(如扭转、嵌顿疝和肠套叠等)引起的内容物通过功能障碍。梗阻发生时,肠道内容物通过性受到抑
随着互联网技术的不断更新,新型的社会化媒介平台不断涌现,信息传播和互动的格局被重新定义。普通网民可以就自己感兴趣的话题自主地发表意见,并积极且频繁地与其他人进行交