论文部分内容阅读
多媒体技术及网络技术的飞速发展使得大量音乐数据可以在网上流通,多媒体数据库中的音频尤其是音乐数据呈爆炸式增长。然而,大规模音乐库的价值与用户能否有效地浏览音乐库的内容息息相关。人们亟需研究有效的自动管理、检索音乐数据的方法来应对此种发展趋势。基于内容的音乐自动分类、检索技术的研究应运而生,成为近几年炙手可热的研究课题。音乐的流派和歌手信息是标识音乐最为重要的两种元数据信息。提取出这两类信息对于音乐的自动组织和音乐信息检索都起着至关重要的作用。此外,目前对中文音乐的自动分析研究甚少。基于以上原因,中文音乐流派自动分类和歌手自动鉴别成为本文的两大关键任务。本文主要通过改进音乐特征提取、设计合理的分类器、改进投票机制等措施提高音乐自动分类的效果。
概括起来,本文的工作主要包括以下几个方面:
1)分析了目前常用的音乐特征提取和分类技术的优点和不足
研究音乐的自动分类,首要的处理步骤是提取出音乐的特征。音乐的特征大致可以分为三类特征,包括音色、节奏和旋律。音色的特征提取大部分借鉴语音信号处理方法,本文对此部分特征作了重点介绍;节奏特征对中文音乐流派分类很有用,在讲述流派分类的部分有详细介绍:目前本文对旋律特征的研究还比较少。在这些特征的基础上,本文还研究分析了机器学习方法在音乐自动分类领域的应用情况,分析了各种方法的优缺点,并对高斯混合模型和人工神经网络作了较为详细的介绍。
2)提出一种基于改进投票机制和高低语义特征相结合的中文音乐流派自动分类方法
为对中文音乐流派的进行自动分类,本文借鉴了现有的流派特征提取方法与分类器设计方法,并对传统的决定歌曲流派的投票机制进行了改进,提出了基于神经网络的投票机制,提高了流派分类的精度。此外,本文成功地将音乐的高低不同层次的语义特征有机结合,进一步提高了流派分类的精度。本文的方法分别在五个流派和七个流派的数据集上进行了实验,对五个流派的分类精度达到88.7%,对七个流派的分类精度达到71.0%。由于流派本身具有一定的模糊性,这样的结果比较具有实用价值。
3)研究开发了基于高斯混合模型的唱声检测算法
本文采用了比较流行的基于高斯混合模型的唱声检测算法,对其中的部分实现机制进行改进,提高了处理效果。为在唱声检测的准确率和召回率之间找到平衡点,本文采取了动态阈值选取的方法米判断Clip有无唱声。对每首歌曲按照百分率来选择有唱声的阈值,进而本文研究了有唱声的检测精度与该百分率的动态关系,该动态关系可以为歌手分类阶段的百分率选取提供一定的参考意义。当每首歌曲选择的百分率在50%以下,有唱声的检测精度达到90%以上,这对于歌手鉴别将会有很大帮助。
4)提出基于扩展的Clip统计特征的中文歌手自动分类技术
为研究同一个流派内歌手的自动分类技术,本文从流行乐坛中选取了20位有代表性的歌手,来进行歌手自动鉴别技术的研究。同一个流派的歌手在流派风格上具有很大的相似性,因此不能简单通过区分流派的特征来区分歌手。本文采取了一系列措施来提高歌手的分类精度,包括:拓展流派分类中使用的MFCC系数的维度,去除不反映歌手特征的节奏特征,选择有唱声的音频帧的特征,利用音频帧的音量对短时帧的特征加权计算Clip的统计特征,扩展Clip的统计特征。以上措施在一定程度上提高了歌手分类精度。与本文在流派分类中使用的改进的投票机制类似,本文通过训练新的歌曲分类的神经网络来做歌手分类,补偿Clip分类阶段的错误,对歌手分类精度也有一定程度的提高。最终本文对20个歌手的分类精度达到70.0%。
综上所述,本文所提出的一系列解决中文音乐流派分类和歌手鉴别的处理技术,在实验环境下都取得了较好的处理效果,论文的工作是本研究小组对中文音乐自动管理和进一步的中文音乐信息检索研究的良好开端。