基于内容的中文音乐自动分类技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:gpm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多媒体技术及网络技术的飞速发展使得大量音乐数据可以在网上流通,多媒体数据库中的音频尤其是音乐数据呈爆炸式增长。然而,大规模音乐库的价值与用户能否有效地浏览音乐库的内容息息相关。人们亟需研究有效的自动管理、检索音乐数据的方法来应对此种发展趋势。基于内容的音乐自动分类、检索技术的研究应运而生,成为近几年炙手可热的研究课题。音乐的流派和歌手信息是标识音乐最为重要的两种元数据信息。提取出这两类信息对于音乐的自动组织和音乐信息检索都起着至关重要的作用。此外,目前对中文音乐的自动分析研究甚少。基于以上原因,中文音乐流派自动分类和歌手自动鉴别成为本文的两大关键任务。本文主要通过改进音乐特征提取、设计合理的分类器、改进投票机制等措施提高音乐自动分类的效果。 概括起来,本文的工作主要包括以下几个方面: 1)分析了目前常用的音乐特征提取和分类技术的优点和不足 研究音乐的自动分类,首要的处理步骤是提取出音乐的特征。音乐的特征大致可以分为三类特征,包括音色、节奏和旋律。音色的特征提取大部分借鉴语音信号处理方法,本文对此部分特征作了重点介绍;节奏特征对中文音乐流派分类很有用,在讲述流派分类的部分有详细介绍:目前本文对旋律特征的研究还比较少。在这些特征的基础上,本文还研究分析了机器学习方法在音乐自动分类领域的应用情况,分析了各种方法的优缺点,并对高斯混合模型和人工神经网络作了较为详细的介绍。 2)提出一种基于改进投票机制和高低语义特征相结合的中文音乐流派自动分类方法 为对中文音乐流派的进行自动分类,本文借鉴了现有的流派特征提取方法与分类器设计方法,并对传统的决定歌曲流派的投票机制进行了改进,提出了基于神经网络的投票机制,提高了流派分类的精度。此外,本文成功地将音乐的高低不同层次的语义特征有机结合,进一步提高了流派分类的精度。本文的方法分别在五个流派和七个流派的数据集上进行了实验,对五个流派的分类精度达到88.7%,对七个流派的分类精度达到71.0%。由于流派本身具有一定的模糊性,这样的结果比较具有实用价值。 3)研究开发了基于高斯混合模型的唱声检测算法 本文采用了比较流行的基于高斯混合模型的唱声检测算法,对其中的部分实现机制进行改进,提高了处理效果。为在唱声检测的准确率和召回率之间找到平衡点,本文采取了动态阈值选取的方法米判断Clip有无唱声。对每首歌曲按照百分率来选择有唱声的阈值,进而本文研究了有唱声的检测精度与该百分率的动态关系,该动态关系可以为歌手分类阶段的百分率选取提供一定的参考意义。当每首歌曲选择的百分率在50%以下,有唱声的检测精度达到90%以上,这对于歌手鉴别将会有很大帮助。 4)提出基于扩展的Clip统计特征的中文歌手自动分类技术 为研究同一个流派内歌手的自动分类技术,本文从流行乐坛中选取了20位有代表性的歌手,来进行歌手自动鉴别技术的研究。同一个流派的歌手在流派风格上具有很大的相似性,因此不能简单通过区分流派的特征来区分歌手。本文采取了一系列措施来提高歌手的分类精度,包括:拓展流派分类中使用的MFCC系数的维度,去除不反映歌手特征的节奏特征,选择有唱声的音频帧的特征,利用音频帧的音量对短时帧的特征加权计算Clip的统计特征,扩展Clip的统计特征。以上措施在一定程度上提高了歌手分类精度。与本文在流派分类中使用的改进的投票机制类似,本文通过训练新的歌曲分类的神经网络来做歌手分类,补偿Clip分类阶段的错误,对歌手分类精度也有一定程度的提高。最终本文对20个歌手的分类精度达到70.0%。 综上所述,本文所提出的一系列解决中文音乐流派分类和歌手鉴别的处理技术,在实验环境下都取得了较好的处理效果,论文的工作是本研究小组对中文音乐自动管理和进一步的中文音乐信息检索研究的良好开端。
其他文献
IPv6协议是下一代互联网的核心,无疑是网络发展的大趋势。各种技术和应用正在向IPv6移植,一些新的技术也在IPv6下孕育而生。 VoIP(Voice Over lP)是利用以太网或其他基于IP
近年来,随着通信网络的迅速发展,具有多种通信手段、设施布置灵活的无线多模网关成为环境监测、应急通信等领域研究的重点。同时人们对视频服务的需求日益增大,而基于无线多
随着大数据、云计算时代的来临,I/O密集型应用亟需高性能的存储介质。作为当前主流备份存储介质的机械磁盘,其数据读/写速度已远远落后于CPU对I/O性能的需求。基于NAND闪存构造
随着电子商务的发展,基于Agent技术的商务协商功能模块的智能化研究是新一代电子商务研究的热点。协商是传统商业活动中最重要、最能体现人类智慧的组成环节;在当今海量信息共
贝叶斯网络是20世纪80年代提出的不确定性推理方法,它为依赖关系和因果关系提供了一种自然而有效的表达方式。贝叶斯网络具备概率推理能力强、语义清晰、易于理解等技术特点,
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,很多企业已经建立了自己的数据库信息管理系统,积累了大量的业务操作数据。这其中也同样蕴藏着大量有价值的但却未被发
目前网络信息利用模式有许多根本性缺陷,网络完全按照用户指定的信息类型和信息源地址,搜索和提供用户所需要的信息,网络中海量的、随机的、并发的、分布的利用信息的行为,被看作
图像处理技术是利用计算机来处理、分析和理解视觉信息的一项技术。随着计算机科学技术的巨大进步,图像处理技术研究和应用的领域正在迅速的延伸。一些具有高鲁棒性的图像处理
软件可靠性是软件质量的重要因素,可靠性评估是对软件可靠性进行定量控制的必要手段。传统的可靠性评估方法都是基于系统运行期间的失效分析,对于武器型号软件,由于其使用试验耗
随着企业规模、范围、分支机构的不断扩展,企业内部及企业之间的信息量迅速增大,使得基于 Internet 的传统商务应用出现了诸多问题:网络的复杂性、管理的繁重性、信息的安全