时序关系依赖的音频语义特征学习方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:weiyinbo007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音信号中包含着大量关于人们生活环境的信息。随着互联网上音频数据的日益增多,以及人们对智能设备依赖程度的增加,迫切希望机器能具有更多的感知和理解声音的能力。针对声音感知与理解的研究,目前主要集中在声学事件识别和声学场景分类上。二者同属于音频分类的范畴,其所要解决的关键问题之一,就是如何学习出有效的音频语义特征表示。鉴于音频是一种时序性信号,其语义内容既取决于所包含的各个基元内容,也取决于各个基元间的时序关系。然而传统的基于帧级别的声学特征提取方法,以及流行的基于深度学习等片段级别的时频域特征学习方法,由于未明确考虑各帧级别或片段级别基元间的时序依赖关系,因而大都无法有效刻画音频样本中的完整时序信息,从而也不能有效学习出具有完整语义内容的样本级特征表示。尽管近年来有部分研究工作开始尝试使用时序建模的方法,来将基元间的长时依赖关系引入到音频语义特征学习过程之中,但这些方法自身还存在着一定的局限性,且未充分考虑音频信号的复杂多样性。因此,仍然需要对时序关系依赖的音频语义特征学习方法进行更深入的研究。基于此,本文从无监督和有监督学习两个方面,对音频样本中时序信息的学习问题展开研究,提出了一系列解决方法:1.为探索能有效刻画完整时序信息的语义特征学习方法,先从最简单的情况出发,尝试一种能够在单一尺度上捕捉基元间时序关系的时序建模方法。首先利用音频词袋方法以固定的时间尺度构建出每个样本的片段级基元表示序列,然后以此为基础,提出一种基于回归的无监督时序性特征学习方法。它以基元间的时间先后顺序为约束,利用参数可学习的线性函数来对基元间的时序关系进行编码,并通过求解支持向量回归问题来对参数进行学习,最后将函数参数作为完整序列的特征表示。此外,通过使用基于稀疏编码的音频词袋方法所构建出的基元表示序列作为输入,所提出的方法可以获得更为鲁棒的音频语义特征。实验结果表明,所提出的无监督时序性特征学习方法可以有效提升音频分类系统的性能。2.鉴于目前大多数时序建模方法都是在单一尺度的基元表示序列上,对基元间的时序关系进行建模。然而,音频数据中各声音事件的变化快慢程度并非一致,其所对应的基元尺度也不可能完全相同。因此,采用统一尺度的基元表示不足以充分反映音频数据的这一特点,需要考虑多尺度的基元表示形式,以及有效刻画多尺度基元间时序关系的方法。为此,将所提出的基于单尺度基元间时序关系的时序性特征学习方法,推广为具有层级结构的能有效捕捉多尺度基元间时序关系的金字塔时序池化网络。首先采用能在多种尺度上刻画局部时频结构的卷积神经网络来构建出样本的基元表示序列。然后利用金字塔时序池化网络学习序列中的多尺度时序信息,进而得到表达能力更强的音频特征表示。实验结果表明,对于声学事件识别和声学场景分类,所提出的方法均可有效地提升系统的性能。3.鉴于音频数据的类别标签包含了人类对其认识的先验知识,合理地利用这些先验知识,将有助于获得更有效的语义特征表示。为此,利用双层优化思想,提出一种有监督的时序性特征学习方法,将类别先验信息引入到时序关系依赖的语义特征学习之中。首先通过将先前基于回归的无监督特征学习中的时序关系编码问题,看作是顶层分类器优化目标的底层约束条件,来构造出任务驱动时序性特征学习问题的双层优化结构。然后采用基于梯度的优化策略对此双层优化问题进行求解,以实现对基元间时序关系及分类器参数的联合学习。实验结果表明,所提出的方法能在更低维度的特征空间中获得区分能力更好的语义特征。4.鉴于声学场景中存在着语义无关联的短时声音模式,它们之间并不存在时序依赖关系。若捕捉所有模式间的时序关系将会引入冗余信息,因而需重点考虑捕捉语义相关模式间的时序关系。为此,提出以语义近邻为约束来学习基元间时序关系的思想,进而提出一种端到端的三维卷积神经网络,来实现对基元表示、基元间时序关系依赖的语义特征,以及分类器的联合学习。所提出的网络将经过卷积运算后得到的局部基元表示映射到语义空间,并通过聚类的方式获得各基元的语义近邻,然后采用多层感知机来对各基元及其近邻间的时序关系进行学习。此外,还提出一种注意力池化的方法来对语义邻域内的时序关系进行聚合,从而使得网络能在更大的邻域内获得有助于分类的时序关系。实验结果表明,所提出的网络可在声学场景数据集上获得优异的分类性能,并超过众多主流的深度学习方法。
其他文献
好氧反硝化(Aerobic denitrification)生物脱氮技术凭借能够节省建设投资、减少运行费用、可实现同步除碳脱氮等独特优势,一直是生物脱氮技术研发领域研究的热点之一。然而,在好氧反硝化方向的研究中,仍然存在如何促进好氧反硝化菌的脱氮性能,如何深入揭示好氧反硝化的作用机制等科学问题亟待解决。基于此,本研究以课题组分离筛选出的好氧反硝化菌(Psedomonas stutzeri T13)
作为癌症的常规治疗方法,化疗通常会引起严重的毒副作用。虽然纳米载体的应用能够适当降低化疗药物副作用,但是大多数药物载体只是药物运输的赋形剂,长期使用会产生纳米毒性以及导致机体代谢紊乱。因此有效减缓化疗药物副作用、降低载体材料诱导的纳米毒性是目前纳米药物载体开发的重要挑战。五环三萜类天然产物是潜在的药物资源,由于其具有药理活性和自组装特性被广泛关注。本研究利用有自组装特性的三萜类化合物,构建了一系列
近几十年来,有机高价碘试剂作为一类简单易得、绿色环保、性能多样的反应试剂备受化学合成工作者的关注和青睐。随着有机高价碘化学的持续发展,各种新型的有机高价碘试剂不断涌现,同时其在有机合成、材料化学以及工业合成中的地位也变得越来越举足轻重。其中,手性高价碘试剂的出现,更是为官能团的精准引入以及不对称新反应的开发提供了一种新颖、高效的方法。在此,本论文利用所制备的高价碘试剂,如亚碘酰苯双酸盐、五元环状高
随着时代的进步,我们国家的经济在飞速发展。在企业经营过程中财务是关系企业正常运转的命脉,而会计在企业里发挥着至关重要作用,如何使会计通过正规的计算模式,整理出科学、正确的数据作为企业领导人决策时参考的依据则是一项严肃工作。特别是在市场经济中,传统的会计形式已经过时,跟不上时代的脚步。因此,在"一带一路"的视域下,金融合作、产业合作、基础设施建设和产业合作等对会计改革提出了更具有挑战性的要求。
期刊
同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)是机器人领域的重要研究问题,实现了机器人搭载相机和激光雷达等传感器,在未知环境中对自身定位同时构建地图的任务。近年来,随着增强现实和自动驾驶等应用的兴起,视觉SLAM(Visual SLAM,v-SLAM)研究受到了广泛的关注。其中单目SLAM仅以图像作为主要感知信息源,基于多视几何理论估计相
随着水体富营养化等污染现象的加剧和我国污水排放标准的日益严格,污水处理中氮污染物的深度去除需求愈发迫切。厌氧氨氧化(Anaerobic ammonia oxidation,Anammox)由于其高效脱氮和低能耗等优势具备广阔的应用前景,但受限于Anammox细菌的缓慢繁殖速度,富集速度仍是自养生物脱氮领域中的瓶颈问题;同时,利用多种分子生物学手段阐明群落结构演替规律,多角度全面揭示微生物群落的代谢
随着对摆式积分陀螺加速度计(Pendulous Integrating Gyroscopic Accelerometer,PIGA)精度和稳定性的要求越来越高,通过改进加速度计材料、设计和加工工艺的方法来提升使用精度变得日益困难。因此,如何通过先进的测试方法对PIGA的误差模型系数进行精准的标定,成为了进一步挖掘仪表精度潜能的关键问题。本文将针对PIGA误差模型系数的标定方法展开研究,全面分析仪表
在实际生产和实践中,绕等温柱体(圆形柱体,方形柱体)的尾流和传热研究得到了广泛的关注,例如电子芯片冷却系统(处理器和功率芯片),微型热交换器,燃料电池,数据中心和涡轮机叶片冷却系统等。随着技术的进步,热工科研人员正在寻找不同的机制来提高相互作用物体和周围流体之间的热工性能。常见的强化传热机制可分为主动和被动两种。主动方法需要外部能量输入来维持系统,进而以强化传热。而被动方法不需要额外的能量来源,仅
为全面了解汉氏葡糖醋杆菌(Komagataeibacter hansenii) HDM 1-3的发酵特性,为提高纤维素产量提供基因组信息,对其基因组数据进行测序分析。采用PacBio平台对该菌株进行全基因组测序,基因组由1个3 659 612 bp染色体和2个质粒组成,编码3 820个蛋白质,含有7个纤维素合成酶基因。基于16S rRNA的系统发育分析表明了K.hansenii HDM1-3相对于
免疫系统可通过特异性免疫与非特异性免疫发挥免疫防御、监视和自身稳定等功能。机体免疫系统出现异常或免疫能力下降时,均会导致免疫调节功能紊乱,严重时甚至可引发多种免疫相关疾病。因此,维持机体免疫系统的稳定对人体生命健康具有重要意义。海洋中含有丰富的资源,海洋中的多种植物即可作为食品来源,也可作为增强机体免疫的药物。孔石莼是一种大型绿藻,广泛分布于中国东海和南海沿岸,含有丰富的生物活性物质,其中多糖的含