【摘 要】
:
多声音事件检测是一项对音频事件进行分类并标注其起止时间的技术,它在公共安全、智能家居、多媒体信息检索等领域具有广阔的应用前景。由于不同的声音事件有时会同时发生而产生彼此重叠现象,并且背景噪声的存在也会使声音事件的识别更加困难。目前在对检测声音事件起止时间要求比较严格的情况,常使用依赖强标签数据集的有监督学习方法,然而,强标签数据集较少,且高性能深度网络模型往往具有大量的参数,难以应用于嵌入式系统。
论文部分内容阅读
多声音事件检测是一项对音频事件进行分类并标注其起止时间的技术,它在公共安全、智能家居、多媒体信息检索等领域具有广阔的应用前景。由于不同的声音事件有时会同时发生而产生彼此重叠现象,并且背景噪声的存在也会使声音事件的识别更加困难。目前在对检测声音事件起止时间要求比较严格的情况,常使用依赖强标签数据集的有监督学习方法,然而,强标签数据集较少,且高性能深度网络模型往往具有大量的参数,难以应用于嵌入式系统。因此,在数据集有限的情况下构建参数量较小且识别性能较高的神经网络模型是声音事件检测需要解决的问题。本文研究了基于深度学习的多声音事件检测系统,主要做了以下工作:(1)提出了基于残差网络和循环神经网络的多声音事件检测方法。在该方法中,残差网络通过增加网络深度来提高识别准确率,解决网络退化问题,以强化特征提取;用空洞卷积代替残差网络中的普通卷积,以增大感受野,提升识别性能;用循环神经网络捕获长时间依赖信息,以充分提取上下文信息。本文针对TUT-sound-events-2017评估数据集进行了实验,实验结果表明:该方法具有良好的识别性能,比多尺度全卷积网络(MS-FCN)模型的错误率降低了6.3%。此外,本文针对Freesound-noise系列数据集进行了实验,与MS-FCN和卷积循环神经网络(CRNN)模型相比,该方法在不同的信噪比和重叠事件种类数的情况下均具有较高的识别性能。(2)提出了基于深度可分离卷积、压缩激励注意力机制(Squeeze-and-Excitation,SE)和循环神经网络的多声音事件检测方法。在该方法中,除了用循环神经网络学习长时间声音依赖信息外,用深度可分离卷积替代普通卷积,以减少模型的参数量和计算量。此外,本文用SE注意力机制学习不同通道特征的重要程度,将学习到的权重系数对通道特征进行加权,以提升模型的识别性能。在TUT-sound-events-2017数据集上的检测实验结果表明,在开发数据集上,该模型比MS-FCN模型错误率降低了0.9%,F1分数提升了0.4%;在评估数据集上,错误率降低了7.2%,F1提升了0.9%,并且该模型仅有11万的参数量。这表明该模型在参数量较少的情况下也具有较高的识别性能。此外,在Freesound-noise系列数据集上的实验结果表明,该方法在不同的信噪比和重叠事件种类数情况下的识别性能均高于MS-FCN和CRNN。
其他文献
随着农业现代化的脚步加快,具有自主作业能力的农业机械(以下简称农机)发展前景十分广阔。目前对农机的主从协同控制方法的研究不断创新,主要对主机与从机的横向偏差进行控制,即控制从机,对主机作业路径进行跟踪,使从机与主机的路径之间的横向位置偏差的精度保持在一定范围之内。本文的研究对象主机为收割机,从机为运粮车(拖拉机),由于收割机-运粮车主从协同控制方法决定着主从协同导航控制系统的控制性能优劣,因此对收
裂隙作为岩体中的软弱裂隙面,是控制岩体力学特征的最重要因素。准确地把握、描述岩体中的裂隙网络是建立可靠岩体力学模型的基础。因岩体中裂隙普遍发育,裂隙数量众多,故无法对每一条裂隙进行定量描述。采用Monte Carlo随机模拟方法建立三维裂隙网络模型,有利于直观了解岩体内部分布规律,掌握一般情况下难以观察、测量到的岩体内部结构特征。因此三维裂隙网络广泛应用于岩体力学领域,极大促进了岩体力学的发展。本
疲劳驾驶检测技术在道路安全方面起着至关重要的作用。国内外众多学者针对基于驾驶员生理信号、面部特征、汽车运动信息等多种疲劳检测技术都进行了深入研究,每种疲劳检测方法都有其自身缺陷例如侵入性测试、误检测、漏检测等。基于多源信息融合的疲劳检测方法因其能平衡互补多种疲劳检测方法来提高系统疲劳检测准确率而逐渐引起人们的关注,考虑到驾驶疲劳是驾驶人员产生疲劳状态进而影响到车辆行驶的过程,本文提出基于驾驶员脑电
近年来,区块链技术的相关研究成为了国内外前沿科技研究热点,特别是作为区块链底层关键技术之一的共识算法,它是保障区块链上节点就区块链状态达成一致的重要环节。但共识算法在吞吐量、时间延迟、动态性等方面存在的问题日益凸显,影响了区块链的发展。因此,本文在分析现有区块链共识算法的基础上进行了基于动态信誉的区块链共识算法研究。主要研究工作包括:首先,本工作详细的对实用拜占庭共识算法PBFT(Practica
单晶硅片是集成电路产业最重要的衬底材料,近95%的集成电路芯片都在硅衬底上制造,为了满足封装技术对硅片厚度的要求,硅片在加工过程中不仅需要高效率的去除加工余量,同时还要求硅片具有较高的表面/亚表面质量。本文以提高硅片加工效率和降低硅片表面/亚表面损伤为主要目标,采用金刚石砂轮磨削与机械化学磨削技术相集成的单晶硅加工工艺,深入研究了不同粒度金刚石砂轮的磨削性能;设计了一款湿式机械化学磨削专用砂轮,并
贝塞尔-高斯光束(Bessel-Gaussian Beam,BGB)具有一般涡旋光束没有的特点,它具有一定的无衍射和自愈特性,且相比于激光束、高斯光束等具有更好的抗湍流能力,是传输理论中的最佳代表光束之一。其在无线光通信领域具有重要的应用价值,可以作为“光学扳手”,也可以在细胞操控治疗、图像处理以及信息保密等领域中进行广泛的应用。论文主要对贝塞尔-高斯光束在大气湍流中的传输特性进行了详细的分析。具
随着互联网技术的发展,教育模式迎来新的改革契机,为满足学生群体不断增长的自主学习需求,在线教育应运而生,并成为不可或缺的教育方式,各类在线教育平台不断涌现,其中由西安电子科技大学计算机科学与技术学院研发的智慧教育平台旨在为学生提供优良的在线学习环境,在师生中引起强烈反响,通过前期多维度数据分析发现,学生成绩与其平台表现呈很强的相关性,因此提升学生对于智慧教育平台的使用积极性极为必要。深度强化学习(
背景与目的慢性肾脏病(CKD)与高血压均对心脏形态和功能有不同程度的损害,致使心血管疾病发病风险增高。左室射血分数(LVEF)被广泛应用于评价左心室收缩功能,斑点追踪技术(2D-STI)被推荐用于观察早期阶段心肌损害。基于2D-STI的心肌做功评价方法因无负荷依赖性而能更客观地反映左室心肌功能。本研究拟应用2D-STI技术及其衍生的心肌做功方法评价单纯CKD和继发肾性高血压的CKD患者的左心室心肌