论文部分内容阅读
歌手识别是音乐检索和分类中的一个重要分支。本文选取MP3格式的音乐作为研究对象,提取了MP3格式音乐的音素特征,对基于MP3内容的歌手识别技术进行了研究。
本文的歌手识别算法主要包括音素分割、特征抽取、相似度匹配三个阶段。首先根据MP3子带因子以及帧能量进行音素分割,然后以音素为单位根据MDCT因子进行特征抽取,将抽取后的特征与构建好的歌手特征库进行相似度匹配,并根据音素区分度计算得分,按降序排列,最后得出识别结果。
本文根据音素的帧能量特征改进了音素分割算法,并提出了反映音素不同区分度的方法,即根据各个音素特征向量与其邻近不同歌手的音素间的距离以及本歌手的音素数量等特性,进行区分度权重的分配,从而给不同的音素赋予了不同的权重,使相似度匹配阶段计算各个歌手的得分更加合理。
本文采用VC++和MATILAB编程实现了歌手识别算法,选用10名歌手的共10000个音素特征向量构建了特征库,通过音素分割准确率以及歌手识别命中率等指标进行测试和评价,实验显示,在音素分割准确率上平均提高了约32.5%,歌手识别命中率平均提高了约12%,证明了本文算法合理有效。