论文部分内容阅读
随着计算机技术和网络技术的迅猛发展,数字音乐信息的数量在急剧增加,海量的音乐数据已经成为现实。同时,网络音乐是互联网应用的基本模式之一,而音乐检索是网络音乐服务的最主要的内涵。由于缺乏有效的、区别于传统的音频检索技术,尽管计算机和互联网中存在大量的音频资源和成千上万的音乐的用户群体,但却很难充分的有效利用这些音频资源和有效的满足这些用户的需求。所以,如何在大规模音乐集上提供令用户满意的检索体验和手段,是音乐信息检索领域最具挑战的研究方向之一,同时也具有较强的现实意义。
传统的基于元数据的音乐检索,由于所用的元数据没有直接反映音乐的内容(如音色、旋律、节奏等)和语义(如风格、情感),从而不能按照内容或者语义来检索音乐所以检索能力有限;要支持对海量音乐进行基于内容或语义的检索,就必须能自动分析音乐内容并识别音乐的语义相关的特征,而音乐风格和情感是最重要的音乐语义相关的特征,所以本文的立意就在于:基于音乐内容对音乐情感和风格识别。
基于音频信号的音乐情感和风格的识别通过以下方面的研究展开:一、基于音频特征的情感识别研究。主要技术手段包括:情感的建模、情感特征提取和选择、情感分类和情感回归。利用PAD心理学模型对音乐建立可计算的情感模型,分析和音乐情感密切相关的特征以及建立相应的特征抽取方法,然后通过机器学习的方法对情感进行分类和回归。情感分类问题,本文创新在于:研究出不同的特征组合对于不同的情感维度的影响,然后在特征组合的基础上构建层次的分类框架。此外运用PCA和ReliefF特征选择的方法对特征进行筛选,降低运算复杂度并且提高分类精度,实验结果显示达到81.5%的分类准确度。对于情感的同归问题,本文在分类框架的基础上,结合特征选择的方法,分别对PAD模型的两个维度进行回归分析,实验结果R2对A值回归达到70.01%,对P值回归的结果达到57.38%。二、音乐风格是体现音乐的一个重要的语义维度,本文对于中国音乐的风格的分类做了一定的研究,提出了一种基于分段机制的隐马尔科夫模型(SDBHMM)来解决中国民乐的分类问题,分类平均准确度达到了92.49%,评测结果优于经典的隐马尔科夫模型(HMM)。最后,本文对于相似检索问题做了一定的尝试,通过对底层音频特征采用LSH技术进行索引,对应于不同的高层特征实现不同纬度上的相似,并且在原型系统中实现了基于片段的相似检索和基于整首音乐的相似检索。
基于如上方面的研究,设计和实现了原型系统-MusiCool(乐酷)音乐检索系统,在此系统中,集成了基于音频信号的情感识别和风格识别的方法,并且开展了相关的实验。本系统既可作为一个桌面系统,管理用户的本地音乐,也可以作为在线音乐系统的音乐处理的内核使用。