论文部分内容阅读
基于在旋律检索机制、旋律匹配高速化算法以及旋律模型鲁棒性建模研究方面已取得了一定的成绩,本文的成果将为基于内容的大规模音乐检索提供新的理论模型以及系统实现技术,从而进一步促进我国多媒体信息检索技术的发展。
本论文的主要工作集中在数据挖掘在音乐提取领域中的应用。国内外已有许多优秀的数据挖掘算法,分析、比较已有的数据挖掘算法,针对本系统的需求,提出自己的想法,对已有算法进行改进。对相关的数据库中的音乐特征进行分析,包括哼唱输入、MIDI格式以及混音的基频特征,这是系统实现的前提;对数据库应用改进的基频提取算法法进行特征分析,获得各种人可感知音乐的旋律特征。改进音乐相似度的匹配算法, 准确提取相似听觉上相似的音乐。
(1)如何从哼唱查询信号中有效地提取旋律特征信息
哼唱音符的准确切分,即音高提取和音长切分的准确与否将直接影响查找效果,因此这是哼唱音乐检索系统的关键之一。经实验分析,利用现有的基音提取技术和能量参数对音符切分很容易出错,尤其是查询者的哼唱比较轻柔时或对哼唱发音方式没有限制时。在先期的研究中,根据采用倒谱峰值提取基音时该峰值大小与该帧信号周期性强弱有关的特点,引入了倒谱峰值曲线协同能量曲线完成音符切分的方法取得了一定的效果。本项目此基础上进一步完善哼唱发音不受限制时的音符自动切分方法,并在第三章提出面向于各种哼唱方式的统一音高提取算法。
(2)如何从复合音、多音轨乐曲音源中提取主旋律特征信息
由于从复合音乐曲波形数据、多音轨乐曲演奏数据中提取乐曲主旋律的方法还没有得到很好解决,故当前用于哼唱检索的音乐旋律特征库大都采用单音轨的MIDI演奏数据。我们在先期的研究中所研制的一个拥有3864首乐曲的哼唱检索系统也是采用了单音轨的MIDI演奏数据,该系统获得了90%的前三位命中率。然而,这种单音轨音乐演奏数据源的采用大大地限制了已有音乐库的大规模利用。为此,本文将探讨如何从复合音、多音轨乐曲音源中提取主旋律特征信息的方法,对多音轨演奏数据拟通过分析各音轨的乐器配音特征及寻找主乐器音特征并加以音轨合并等方式来尝试其主旋律信息的提取方法;对复合音乐曲波形数据拟跟踪特定音色的基音轨迹的方式来探讨提取主旋律的方法。
(3)如何提高检索的速度
音乐检索系统的时间效率与歌曲库规模成正比。本文拟结合已提出的高速化匹配算法,配合音乐旋律特征库的自动标引的研究来综合探讨大规模音乐库检索的高速化问题。与文本,图像等其他形式的文件相比,音乐数据流的一个独特特征就是它的准线性特征。又由于音乐检索的匹配并非完整模式匹配,而是子模式匹配,也就是说查询者的输入往往是一首歌曲的某一小段,而不是完整的一首歌曲,所以在实现上可采用基于线性伸缩匹配方式的移动搜索,再加上旋律特征的分段标引的探讨与实现,从而达到显著降低时间复杂度的目的。