【摘 要】
:
随着智能时代的来临,音频信号处理技术日益引起人们的广泛关注。在生活中,现实声场景中包含丰富的有用信息,当一个环境中存在着潜在危险时,可通过对场景中异常声音的关键特征进行识别检索来达到对危险声环境监测的效果。另外,当人们需要从海量的音频文件中找到某个目标音频文件时,也可以利用音频的关键特征进行检索识别,从而提高办事效率。无论是异常声音检索系统还是常规声音的检索系统,都需要进行音频特征提取并建立音频特
论文部分内容阅读
随着智能时代的来临,音频信号处理技术日益引起人们的广泛关注。在生活中,现实声场景中包含丰富的有用信息,当一个环境中存在着潜在危险时,可通过对场景中异常声音的关键特征进行识别检索来达到对危险声环境监测的效果。另外,当人们需要从海量的音频文件中找到某个目标音频文件时,也可以利用音频的关键特征进行检索识别,从而提高办事效率。无论是异常声音检索系统还是常规声音的检索系统,都需要进行音频特征提取并建立音频特征库。针对不同应用场景下的音频检索问题,本课题分为两个部分进行研究探讨,一是通过改进异常音频特征参数进而提高异常音频检索系统的性能;二是通过减小音频特征库的数据量进而提高音频的检索速率。本课题的详细研究工作如下:(1)针对危险声场景检测开展研究,提出了基于梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)与矢量量化(Vector Quantization,VQ)的异常音频检索方法。本课题首先从互联网、华纳音效数据库(Warner Sound Database,WSD)以及索尼音频数据库(Sony Sound Database,SSD)等选取了爆炸声、尖叫声、急刹车声、哭泣声、警报声、枪声、摔倒声、呼救声、玻璃破碎声以及车辆急促鸣笛声等构建成异常音频数据库。其次,结合所构建的数据库对异常声音的时域以及频域特点进行分析,根据异常声音在时频域的特点并结合人耳听觉特性,选定梅尔频率倒谱系数为提取的特征参数。通过分析可知音频信号的第一个MFCC系数对应于信号的低频带信息,而该维系数所包含有用信息相对较少,对检索准确率贡献较小。为此,本文在构建特征参数时舍弃MFCC参数的第一维信息,用时域短时能量(Short-term Energy,STE)代替,组合成特征参数MFCC-STE。再次,通过比较各类识别模型分类器的优缺点,选择矢量量化器为异常声音识别分类器并以MFCC-STE作为异常声音特征参数,实现了异常音频检索分类。最后,通过实验仿真分析发现特征参数MFCC-STE对于提高异常音频检索系统性能有着较好的效果。说明本文所提方法对于异常声音检索系统有一定的研究意义和实用价值。(2)针对现有音频检索中样本音频特征库数据量较大且检索速率慢的问题,本课题提出一种基于压缩感知和音频指纹降维的固定音频检索方法。在音频检索的训练阶段,首先,对样本音频信号进行稀疏化处理,并通过压缩感知算法对稀疏化后的音频数据进行压缩;其次,提取压缩信号的音频指纹;再次,引入音频指纹离散基尼系数,并通过计算音频指纹各维度的离散基尼系数对指纹实施降维,最终得到检索特征库。在音频检索阶段使用与训练阶段相同的算法提取待检音频的特征,并与音频特征库数据匹配得出检索结论。实验结果表明,所提音频检索方法在确保较好的检索准确率的基础上,大幅度减小了样本音频数据库的存储量,提高了音频的检索速率。
其他文献
热水铜矿点位于青海省热水乡。通过剖面(图1)和地质路线观察,整个区内出现的岩石类型主要为厄拉山组火山碎屑岩、钾长花岗斑岩、钾长花岗岩、花岗闪长斑岩。主要的含矿岩石类
本论文主要包括以下两部分工作:第一部分用钨酸钠和次亚磷酸钠为前驱体,用简单的固相磷化反应制备了WP催化剂,通过XRD、XPS和TEM技术对制备样品进行了表征。以WP为催化剂,研究了其在氮气气氛和常温常压下催化甲醛制氢性能。结果表明:在Na OH和HCHO为最佳浓度时,其在氮气气氛下的析氢量约为空气气氛中的11倍。进一步优化反应条件,例如反应温度、催化剂量等可以进一步提高产氢活性,同时甲醛也可以有效
电离层和等离子体层中存在着大量带电粒子,无线电波在经过电离层和等离子体层时,会发生反射、折射、吸收等现象,任何依赖于无线电波的技术设备都会受到一定的影响。随着我国
脑机接口(Brain Computer Interface,BCI)是一种人脑和外部计算机之间连接的通道。近几年,研究者们提出了混合脑机接口的概念,它将两种或多种类型的脑电信号融合以弥补各自的
近年来我国科研力量不断加强,科研水平不断提高,取得了一系列卓有成效的科研成果。但同时随着科研经费投入的不断增加,科研领域却也乱象丛生,部分科研人员将科研项目当作满足
钠冷快堆是我国在研的第四代先进核反应堆堆型。快堆的堆本体为池式结构,具有体积大和壁薄的特点,且主容器内还装有近1700吨的液钠。在发生地震的情况下,液态钠会产生晃动,进而与主容器壁和堆内构件产生流固耦合效应,其产生的脉冲压力可能会对堆本体的结构产生破坏。因此,在进行快堆堆本体的抗震设计时,考虑液体晃动带来的流固耦合作用是十分必要的。在前人关于堆本体流固耦合作用的研究中主要依据ASME提供的经验公式
增减材复合加工技术,利用减材加工具有加工精度高、表面质量好等特点,弥补了增材制造逐层堆积材料产生阶梯效应的缺陷,不仅能够提高生产效率和材料利用率,还能减少加工中切削液的使用,具有广阔的应用前景。加工模型的几何表示是增减材复合加工的基础。细分曲面是由初始网格不断细分得到的网格曲面。相比于传统的NURBS造型方法,细分曲面更适合于复杂模型的设计和制造。细分曲面已经成为CG/CAD/CAM领域的研究热点
随着经济的不断发展,电力资源已成为核心能源之一。输电导线作为电力运输的重要载体,遍布全国各地。架空输电导线属于大跨柔性结构,在风、雨和冰雪等外部荷载作用下会产生大幅振动,从而影响电网的安全运营。传统的减振措施和装置有一定的局限性,减振效果不明显。本论文主要研究架空输电导线自身的耦合动力特性,通过利用自身的动力特性实现输电导线的减振控制。分别以两档耦合或三相耦合输电线路为研究对象,通过理论分析和数值
山西省委、省政府受“硅谷”发展的启示,着眼全省“三农”长远发展和全面建成小康社会大局,提出在太谷县全域内建设山西“农谷”。科技创新是山西“农谷”建设的底色和核心。本文以山西“农谷”科技创新机制为研究对象,以SWOT为战略分析工具,对山西“农谷”农业科技创新的基础性条件作了系统分析,并将山西“农谷”的农业科技创新看成一个由政府、高校与科研机构、企业、科技中介、农民等相关主体构成的一个互动融合的创新生
快堆中由于堆芯功率和流量分配的不均匀性,导致流经燃料组件的冷却剂温度存在差异,不同温度的冷却剂在堆芯出口位置产生搅混,使位于堆芯出口正上方的中心测量柱周围产生复杂的高频温度振荡现象。当流体的温度振荡传递到中心测量柱突变位置时,会产生较大的形变和应力,可能会引起中心测量柱的热疲劳与热老化,进而影响反应堆的控制和保护动作。相比于压水堆,快堆在正常运行时中心测量柱附近流体的温差和热导率较大,温度振荡现象