【摘 要】
:
声学场景分类可以通过分析处理来识别音频所描述的声学场景,是自然声学场景计算分析领域的重要技术,在智能设备、声音监控以及多媒体分析等领域的应用十分广泛。但是目前声学场景分类任务仍存在着分类准确度不高、泛化能力较弱等问题,基于此,本文开展了如下研究工作:(1)首先介绍了声学场景分类技术的研究价值及其国内外研究现状,梳理了声学场景分类的基本流程,并详细叙述了音频样本数据的特征提取,和常用分类模型在声学场
论文部分内容阅读
声学场景分类可以通过分析处理来识别音频所描述的声学场景,是自然声学场景计算分析领域的重要技术,在智能设备、声音监控以及多媒体分析等领域的应用十分广泛。但是目前声学场景分类任务仍存在着分类准确度不高、泛化能力较弱等问题,基于此,本文开展了如下研究工作:(1)首先介绍了声学场景分类技术的研究价值及其国内外研究现状,梳理了声学场景分类的基本流程,并详细叙述了音频样本数据的特征提取,和常用分类模型在声学场景分类任务中的主要应用。(2)为了提高声学场景分类准确率,本文综合考虑声学事件本身特征对于场景表征的影响以及单模型训练存在的分类误差问题,提出一种基于多特征后期融合的声学场景分类方法。在线性预测倒谱系数的基础上提出声学事件状态似然特征,关注场景中所含有的声学事件特征,根据声学事件特征将录制音频映射到具体场景,结合深度散射谱以及谱质心幅度倒谱系数共同作为特征输入,在残差网络分类器进行并行训练;在分类结果处理阶段,采用平均叠加的整体策略在随机森林上进行集成训练,预测声学场景类别。研究结果表明:本文所提方法通过功能互补的声学特征能够有效地对声学场景进行分类,提高分类精度以及泛化性能。(3)针对因录制设备差异而导致的传统声学场景分类模型应用在不同数据集上分类时性能下降的现象,提出了基于域适应的多设备声学场景分类方法。该方法利用鉴别器提升模型特征提取模块用来学习设备无关特征的表示能力,并利用度量准则作为条件信息来衡量样本类别的预测分布与真实分布的相似度,进而加强提取设备无关特征这一能力,此外,利用基于交叉熵损失提出的焦点损失函数来衡量预测误差,更多地关注不易分类、但是对于提升模型整体分类精度更有利的样本数据,从而优化学习效果和效率。研究结果表明:所提方法有效地缓解了音频录制设备差异带来的数据分布不一致现象。
其他文献
中华鼢鼠是石桥林场所辖森林资源的重要危害之一,其主要吞噬树木的根系,严重影响着树木的成活率和保存率,以及生态建设的可持续性发展。中华鼢鼠给生态建设带来了无法估量的经济损失。本文就中华鼢鼠的生活习性、分布区域,侵害的树种做一探讨,并结合石桥林场这几年采取的有效防治办法,总结出了具有可操作性的防治措施。
身份识别在金融安全、安防等领域的重要性日益增加,而人脸识别由于其方便快捷、性价比高等优点在日程生活中得到了广泛的应用,也是近年来的研究热点之一。当今世界正在受到新冠肺炎疫情的冲击,人脸识别相较于指纹和身份证等身份识别方式,具有不需要接触特定传感器的特点,从而可以减少公共场所内的不必要接触,一定程度上减少了疫情传播的风险。由于新冠疫情的影响,佩戴口罩出行成为人们的生活准则,而口罩的遮挡使得采集到的人
信息时代技术发展越来越快,数据量剧增,例如在工业生产领域,多晶硅及碳碳复合材料生产过程中涉及到的生产因素比较多,会产生大量的生产数据。如何充分利用数据挖掘技术对上述数据进行分析以提高实际生产效率是本项目的研究重点。聚类算法是数据挖掘中一种重要的数据分析手段,模糊C均值算法(Fuzzy CMeans,FCM)作为软聚类算法,主要采用隶属度确定样本所述类簇。FCM主要缺陷是需要人工设定类簇数目及初始聚
精神分裂症是一种复杂且致残率高的慢性精神疾病,给患者及其家属带来沉重的负担。准确地诊断精神分裂症可以及时抑制患者病情发展并给予进一步治疗。目前,精神分裂症的诊断主要依赖于主治医师的经验以及相关量表,过程复杂且缺乏客观的标准,同时早期的精神分裂症患者并不会表现出明显的行为异常,这极大增加了精神分裂症的诊断难度。近年来脑影像学技术逐渐成熟,静息态功能磁共振成像(resting-state functi
随着工业化进程的快速发展,人们的物质生活水平得到极大的提高,但同时也造成了有毒有害气排放和易燃易爆气体泄露等问题。由于人类对这些气体的感知能力有限,因此,需开发高性能的传感器实现对这些气体的有效检测。目前,金属氧化物半导体气体传感器由于生产成本低、制备简单、使用方便以及能够检测大量气体等优点,在气体检测领域得到了广泛应用。众所周知,对于金属氧化物气体传感器,其敏感材料对传感器的性能具有重要的影响,
现代社会,脱发已经成为一个普遍的现象,毛囊移植是治疗脱发的最有效方法。然而,供体面积不足、移植密度低、成活率低等问题明显影响了治疗效果。此外,毛囊作为皮肤的重要组成部分,其再生对于皮肤再生也是非常必要的。毛囊组织工程的研究是解决上述问题的有效方法之一。生物三维(3D)打印技术能够同时沉积活细胞和生化分子(如生长因子)与生物材料支架在期望的位置,以模拟本地组织结构或创建一个特殊设计的3D微环境,近年
虽然车牌检测技术已经日趋成熟,但雾霾环境下采集到的低质量图像会出现色彩及对比度等特征的衰减,降低了基于图像的车牌检测算法的准确度,这对诸如电子警察、自动驾驶等基于计算机视觉的智能化工具造成了极为不利的影响。目前针对雾霾条件下车牌检测的研究成果相对较少,因此通过研究提升雾霾条件下的车牌检测精度,对提高交通管制能力,提升不良环境下的道路安全性具有重要的实际意义。本文提出一种雾霾条件下的无锚框车牌检测算
现如今,深度学习已经在很多的领域得到了广泛应用,并且深度学习已经变成了人工智能领域的关键,然而,较为先进的神经网络都需要庞大的数据集进行训练以及较长的训练周期,这就使得攻击者可以在训练集进行投毒攻击,从而破坏模型性能。因此,研究投毒攻击技术可以在提高攻击成功率同时增强其隐藏性,造成更大的威胁。投毒攻击是针对深层网络的一种对抗性攻击,投毒攻击中的后门攻击是一种不同类型的攻击,攻击者选择一个特定的触发
视频水印技术将代表视频版权信息的水印不可感知地嵌入到视频作品中,在发生版权纠纷时,将其提取出来,用于认证作品版权,为视频版权的保护提供技术支撑。实用的视频水印技术要求水印兼备不可见性和鲁棒性,嵌入和提取水印的过程具有高效性。离散余弦变换(Discrete Cosine Transform,DCT)直流系数(称为DC系数)量化方法在空域中量化DC系数嵌入和提取水印,满足高效性要求,且对大多数攻击表现
生态振兴是民族地区巩固脱贫攻坚成果、消除区域性发展不平衡不充分问题的重要途径。当前,民族地区在生产发展、生活提高、生态改善方面虽然取得了一定成效,但粗放型发展行为并未完全扭转,可持续发展的历史性、累积性、深层次问题尚未得到根本解决。必须从思想层面纠正民众认识偏差,强化思想与文化建设,培育“社会主义生态公民”;发挥生态禀赋优势,促进增长动力转换,实现产业与生态融合;构建“生态+”多元一体治理模式,推