基于胶囊网络的音乐自动标注算法及其应用研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:roc59516663
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音乐自动标注的目的是识别一段音乐音频所涉及的各种社会标签,包括但不仅限于音乐的乐器、年代、情感和流派。目前,基于卷积神经网络的音乐自动标注算法已经成为解决该任务的主流方法之一。本文调研和分析现有基于卷积神经网络的音乐自动标注算法,发现卷积神经网络中的卷积和池化操作造成了的空间特征的损失、缺少基于数据增强的音乐自动标注算法的研究、缺少基于音乐自动标注算法的工程应用的问题。基于此,本文研究基于胶囊网络的音乐自动标注算法,设计并实现了音乐自动标注系统。主要工作与贡献总结如下:(1)提出基于胶囊网络的音乐自动标注算法。设计了基于胶囊网络的混合神经网络模型,利用卷积神经网络提取低级别的特征,再通过胶囊网络提取空间特征,解决了卷积神经网络缺乏对空间特征的提取的问题,并对胶囊网络中的压缩函数进行改进,最终得到了0.9077的受试者工作特征曲线下面积,比全卷积神经网络提高了1.37%的受试者工作特征曲线下面积。(2)提出基于数据增强的音乐自动标注算法。在先前的研究基础上尝试了更多的混合神经网络模型,并通过尝试多种数据增强方法,同时还探索了不同的音频长度、采样率和梅尔频带数所生成的梅尔语谱图作为神经网络的输入。最终在利用数据增强的基础上,所提出的基于胶囊网络与残差网络的混合神经网络模型在音乐自动标注任务上得到了0.9083的受试者工作特征曲线下面积,相较于未使用数据增强是提升了0.14%的受试者工作特征曲线下面积。(3)设计并开发基于胶囊网络的音乐自动标注系统。应用上述两种算法,实现了结合数据增强方法生成梅尔语谱图、利用胶囊网络进行音乐自动标注的功能。
其他文献
群体智能灵感来源于生物群体的智能行为,蚁群优化算法和遗传算法是两种典型的群体智能算法。受益于其分布式求解方式,群体智能可由忆阻网络等硬件电路实现并行。忆阻器是一种非易失、可编程的新型电路器件,在物理上具有诸多优良特性。相较于传统存储计算异地的计算模型,忆阻器可实现内存计算模型(存储和计算同地完成),消除内存与计算单元间的传输代价。因此,忆阻网络被应用于深度神经网络和群体智能等算法的并行计算与记忆计
21世纪,随着智能手机、GPU硬件的更新迭代,计算机图形学已广泛地运用在生活和工程中,手机游戏凭借渲染算法获得良好的视觉效果,高级渲染效果甚至可以很好的模拟真人的外观。“智能虚拟人”是三维渲染与人工智能结合的产物,表现结合智能算法,拥有一定自主学习能力于可交互性的虚拟角色,虚拟人的研究可以为探究人类自身的智能提供了参考,同时虚拟人具有一定应用值,可用于智能服务,虚拟主播等。随着三维相关的人工智能技
近些年车联网技术伴随智能汽车的风口进入人们的视野,在5G通信、云计算、人工智能等技术的加持下,车联网技术在几次的产业升级中不断发展,智能汽车也上升到国家战略层面。在研究车联网发展过程中,发现车辆智能终端的云端监控平台和终端安全也是重要的课题,车辆的终端安全关系到道路车辆和设施安全、行人和驾驶员的人身安全,近些年也频繁出现车辆遭遇劫持等问题。论文主要面向车辆终端的软件层面的安全监控,配合云端的安全分
在大数据时代,互联网上产生了大量的不同题材的内容,导致用户不能快速地获取感兴趣的内容,严重影响了用户的使用体验。为了解决这个问题,推荐系统取得了成功的研究与应用。由于用户对项目的评分能反映用户对项目的喜欢程度,所以大量的推荐算法从用户对项目的历史评分数据中提取有价值的信息,据此提供推荐内容。现有推荐算法通常将用户的历史评分数据表示为高维稀疏矩阵,并从高维稀疏矩阵的评分数据提取数值特征,然而这些算法
目标检测作为人工智能学科中与生活最为贴近的研究热点之一,在自动驾驶、人脸检测、智能监控、医疗及工业检测等场景都有着广泛的应用。随着深度学习的发展,目标检测任务在准确率越来越高的同时,神经网络模型也越来越复杂。本文通过对目标检测网络以及神经网络压缩算法的研究,以端到端目标检测网络为切入点,着手于知识蒸馏、模型剪枝及参数量化三个方向对目标检测网络的压缩问题进行了研究。希望给目标检测网络的压缩问题带来新
随着机动车辆在全世界的逐渐普及,人们在便利生活的同时也伴随着交通安全事故。根据世界卫生组织的统计结果表明,全球每年死于交通安全事故的人数超过一百万人,其中接近五分之一的事故是由驾驶员分心行为所引起。驾驶员安全行为检测是对驾驶员在驾驶机动车辆过程中出现的不安全类别行为进行检测预警,如使用手机、抽烟和喝水等不安全动作。在图像检测领域,传统机器学习对待检测图片进行人工特征提取和特征匹配,其次使用支持向量
人体跌倒干预目前多局限于跌倒检测,以便检测到后及时送医以避免造成更大损失,但是并不能避免跌倒发生。人体跌倒碰撞前行为检测旨在人体发生跌倒碰撞前检测跌倒行为的发生。本文开展人体跌倒碰撞前行为检测研究,分别使用可穿戴惯性传感器和Kinect摄像头采集人体跌倒的惯性传感数据和视频序列数据,基于可穿戴传感器、Kinect摄像头和多视角融合方法进行人体跌倒碰撞前行为检测研究,适用于多环境下人体跌倒保护。论文
在深度学习技术快速发展的今天,现有的文本摘要技术也因此受益,处于蓬勃发展期。但是生成式文本摘要技术发展至今,依旧存在着句子冗余/错漏,内容覆盖主题不足,句子流畅度不高以及训练效率低下且难以部署的问题。本文根据对生成式文本摘要技术的研究,结合现有前沿技术,由此分析、设计并实现了胶囊-注意力指针模型,在该算法的基础之上,完成了相应的文本摘要高并发微服务复合架构的设计与实现。本文的结构以及具体工作如下:
准确识别计算机断层扫描图像上的恶性肺结节中是早期发现肺癌的关键。但这是一项繁琐和困难的任务,因为需要放射科医生手动标记结节位置。随着深度学习技术的引入,基于卷积神经网络的计算机辅助结节自动检测系统被开发用于肺癌早期的检测和分类筛查过程,显著地提高了放射科医生的诊断质量和效率。本论文重点研究了基于3D卷积神经网络的肺结节检测以及分类方法,研究工作主要分为以下两个部分:(1)基于双路径U-Net网络的
关系抽取是自然语言处理领域重要的研究方向,如何有效地从大量的文本中提取出关系事实,是近年来的研究热点。现阶段的主流方法通常使用深度学习技术进行关系抽取,这些方法大多集中在单个句子中的关系抽取。然而,大多数关系事实只能从一个段落或者一篇文档中抽取。由于段落和文档输入较长,现有的深度学习方法无法准确在文本中定位关系事实位置,并且不能对跨句子的关系进行推理。针对上述问题,本文结合图神经网络技术构建实体图