【摘 要】
:
随着互联网和多媒体技术的不断发展,人们能够越来越方便的获取更多的数字音频资源。由于人耳听觉系统对于音频具有卓越的分辨能力,即使在嘈杂的环境中,只需要几秒钟便可以识
论文部分内容阅读
随着互联网和多媒体技术的不断发展,人们能够越来越方便的获取更多的数字音频资源。由于人耳听觉系统对于音频具有卓越的分辨能力,即使在嘈杂的环境中,只需要几秒钟便可以识别出正在播放的歌曲。但问题是面对越来越多的音频资源,如何通过计算机实现自动音频识别。由此产生了基于内容进行识别的音频感知哈希技术。针对目前很多提出的音频感知哈希算法鲁棒性不够好,计算复杂度高的问题,本文提出一种新的音频感知哈希算法。首先,我们设计了一种新的音频时频域特征表示方法,用多通道Gammachirp滤波器组在人耳最敏感频带范围内对音频信号进行滤波,分帧后按频带计算能量谱,实验证明该音频特征具有很好的鲁棒性和抗几何失真能力。接着利用非负矩阵分解(Non-negative Matrix Factorization, NMF)提取出Gamamchirp耳蜗能量谱局部特征的同时对数据进行降维。最后对该局部特征进行差分和量化得到二值化的音频感知哈希,实验结果表明在经受音频编辑软件多种攻击和实际环境中录音检索时,所提出的音频感知哈希算法都具有很高的识别率。另一方面,检索速度在音频信息检索中也是一个很重要的问题。仅通过改变算法无法在短时间内获得显著的速度提升。因此,有必要利用其它计算设备加速音频检索算法。图形处理单元(Graphic Processing Unit, GPU)能够提供强大的并行计算能力,尝试利用GPU对已有音频检索算法进行加速具有重要的意义。本文中,通过利用CPU与GPU协同运算使得感知哈希匹配和整个音频信息检索过程的耗时得到了大幅度降低。最后,本文结合以上算法设计了一个交互式音乐检索系统,该系统可以通过录取几秒种的音频片段检索出其对应的曲名,歌手以及专辑封面图片等信息。
其他文献
目的 探讨贫困大学生人格特征及教育对策。方法 利用自编的 4个量表和 2个已有量表 ,对全国 1 1所高校的 747名贫困大学生和 90 3名非贫困大学生施行测试 ,进行 t检验、log
区域是城市同时也是城市化发展的基础。西部地区远离沿海,区域情况特殊,地位重要,但却面临着严峻的经济发展与生态建设的形势。新疆作为我国典型的西部地区,有着重要的战略地位和
本文对视频会议技术的产生、发展和演进进行了介绍,并结合具体的组网案例对其进行了充分分析和研究。本文通过对视频会议系统建设集成项目的设计,探讨了视频会议技术、图像传输
目的探讨糖化血清白蛋白检验在糖尿病诊治中的临床意义,并对其进行评价。方法选取该院于2012年4月—2014年5月收治的45例糖尿病患者为实验组,45例健康体检者作为对照组,对两
利用我国竹资源优势,发挥竹材人造板优良的力学性能,提出一种新型的组合结构——冷弯薄壁C型钢-竹胶板组合楼板,即两张竹胶板间按一定间距布置两根冷弯薄壁C型钢,型钢与竹胶
近几年,中国经济形势以及市场物价总水平出现剧烈变化,受此影响,乌鲁木齐居民消费价格总水平持续上涨,对居民生活产生了诸多不利影响。如果物价持续上涨从而形成全面的通货膨胀,不
随着科学技术的进步,图像处理技术近年来得到飞速发展,计算机视觉成为计算机领域研究的热门,而目标跟踪作为它的一个重要部分已经广泛应用到人机交互、智能交通、机器人视觉
自世界贸易组织(WTO)成立以来,其争端解决机制中的条约解释问题一直是国内外学者讨论的热点问题。根据《关于争端解决规则与程序的谅解》(DSU),WTO争端解决机制应该依照《维
在服务型政府管理过程中发展协商民主具有必要性和可能性。要充分发挥协商民主对服务型政府建设的作用,就要在把握协商民主特点的基础上,不断克服实践过程中可能出现的问题。
金融是现代经济和产业的核心,金融服务贸易对于经济增长具有重要的作用。近年来,国际金融服务贸易快速发展,已经成为当代国际金融发展的一个重要特点。世界贸易组织成立后,金