论文部分内容阅读
音乐是人们日常生活中不可缺少的组成部分,它作为一种独特的抒情方式和重要的交流媒介,其中携带着丰富的信息。近几年来,互联网成为音乐的新载体,互联网的高速发展使网络上音乐的数据急剧增加,种类也日益繁多。如何借助计算机技术对网络音乐数据进行有效的管理已经成为信息处理领域的研究热点。本文着重研究基于歌词的音乐情感分类。首先,本文将音乐情感分类看作是二元分类问题,对情感分类中的几个基本问题进行了研究。其一,在监督学习框架上,研究了分词预处理的准确性对最终情感分类的影响,验证了构建音乐领域专用分词工具的必要性;其二;研究了多个常见的分类器在音乐情感分类领域的性能,其中包括最近几年受到较多关注的主题模型;其三,本文研究了不同的特征值计算方法对性能的影响,及向量归一化对分类性能的影响。其次,由于音乐情感分析领域中经过人工标注的数据资源相对匮乏,本文研究了在标注数据有限的情况下的音乐情感分类问题。为此本文采用了两种不同的学习框架:部分监督学习和半监督学习。部分监督学习关注的是单类别学习的问题,即训练数据中只有一类数据带有标注信息;半监督学习则关注如何利用无标注数据改进分类性能的问题。在本文的半监督学习研究中,本文特别关注了通过主题学习获取文档中的主题信息并将其作为新的分类特征。实验结果表明:主题信息和无标注数据对提高情感分类性能有较大的帮助。最后,词典方法是音乐情感分类中常用的方法之一,为减少构建词典的人工代价,本文研究了两种不同的情感词典自动扩展方法。其一,应用bootstrapping方法从无标注数据中学习情感词以扩充情感词典;其二,本文认为人工标注数据的难度要低于构建词典,因此本文研究如何从有标注数据上挖掘情感词。