基于深度学习的音频对齐的研究与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:liongliong553
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和多媒体技术的发展,数字音乐成为了音乐传播的重要载体,促进了计算机上数字音乐的研究。将不同音乐数据流对齐是当前音乐信号研究中的重要方向,该研究对于实现对音乐信息的检索有着重要的意义。近年来,深度学习技术也被用于音乐的对齐。本文研究音乐数据流中音频和MIDI音符之间的对齐,选取钢琴音乐作为对齐的研究对象。通过音频信号处理技术和深度学习方法从音频信号中提取特征序列,实现了两种基于音高序列的对齐模型。并在此基础上研究了将音高序列和音符Onset序列相结合对对齐效果的影响,分析了三种不同神经网络模型提取音符Onset序列后的对齐结果。本文的主要工作内容有:1、音频信号特征参数和MIDI特征序列提取。通过分析音频信号的时频域特征,对音频信号进行预处理、分帧、加窗和滤波,选取音频信号长窗口的STFT特征和短窗口的STFT特征叠加起来的综合特征(360维)作为音频信号特征序列提取的特征参数。并通过分析MIDI文件格式,从中提取音高和音符Onset序列。2、基于音高序列的对齐。分别使用卷积神经网络模型(CNN)和双向长短时记忆网络模型(BLSTM)从音频特征参数中提取音高序列,使用快速动态时间规整算法(FastDTW)计算音频音高序列和MIDI音高序列的对齐路径。在l0ms、30ms、50ms、100ms阈值范围内的对齐结果表明使用CNN模型的对齐效果更好。3、鉴于音乐中音符起始时间的重要性,研究并实现了音高序列加音符Onset序列的联合对齐模型。并实现了三种提取音符Onset序列的模型:双向长短时记忆网络模型(BLSTM)、融合注意力机制的双向长短时记忆网络模型(BLSTM-Attention)、以及基于注意力机制的卷积神经网络——双向长短时记忆网络模型(CNN-BLSTM-Attention)。对齐结果表明加入音符Onset序列后对齐准确率大幅上升,在三种提取音符Onset序列模型中,CNN-BLSTM-Attention模型的对齐效果最好,BLSTM-Attention模型次优。
其他文献
在利用Context模型实现系统的压缩编码时,Context模型是用来估计信源概率模型的有效方法。而Context建模的研究重点则是通过Context量化使压缩效率得到进一步提高。Context量
普鲁士蓝作为美国食品和药物管理局(FDA)批准用于治疗铊和铯的放射性暴露疾病的临床药物,说明其具有较好的生物安全性。近年来,基于其良好的生物相容性、独特的金属有机框架(
马克思、恩格斯的人道主义思想曾受到西方传统人道主义的强烈影响,存在一定的理论局限和现实困境。唯物史观创立后也即在《德意志意识形态》成作及其之后的时期,马克思和恩格
传感器技术作为物联网的关键技术之一,其应用已经深入到日常生活的各个方面,无线传感器网络就是其中应用广泛的一种。对于无线传感网络,MAC协议有两种常见的控制机制,即轮询
随着70年代末改革开放的到来,我国城市迎来了四十年余的高速发展,尤其是80年代末住房制度改革的全国推广后,城市普遍采用“楼盘+写字楼”的建设模式,由“政府+开发商”强力推
随着社会的快速发展,原油已然成为支撑社会经济稳定有序发展,满足居民幸福生活需求的重要资源,原油价格的稳定事关我国的国家能源安全。目前我国原油的进口依赖度在50%以上,时隔24年之久的中国原油期货于2018年3月26日在上海国际能源交易中心再次上市。上海原油期货上市伊始成交量和持仓量迅速攀升,短短4个月日成交量便已经突破20万手,一举超越迪拜商品交易所的阿曼原油期货成为全球第三大原油期货品种。与此同
学位
目的:研究血浆热休克蛋白90α(heat shock protein 90α,简写为HSP90α)、血清CA125及HE4在卵巢上皮性癌中的表达,探讨单项检测及三者联合检测在卵巢上皮癌诊断中的意义。方
作为安全组播通信的热点问题之一,组密钥更新研究的主要问题是组控制器(GC)如何在公共信道上给特权用户子集分发新的组密钥(GK),而撤销用户子集不能获取消息内容。故而,组密
急性肾损伤(Acute kidney injury,AKI)是住院患者尤其是重症患者常见的并发症,可由多种原因引起,常表现为肾脏功能急剧下降、伴或不伴少尿或无尿,有较高的病死率。AKI发病率逐
背景:口腔癌是口腔黏膜发生的最常见的恶性肿瘤,其特点是浸润性广、进程快、预后较差,5年存活率只有50%~55%。肿瘤的进展是由上皮和间质的相互作用,构成的肿瘤与宿主界面微环