【摘 要】
:
音频信息作为人类交流和感知的重要载体,发挥着无可替代的作用,而音频信息在应用中很大程度上依赖于语音端点检测(voice activity detection,VAD)。对音频信号的语音部分进行
论文部分内容阅读
音频信息作为人类交流和感知的重要载体,发挥着无可替代的作用,而音频信息在应用中很大程度上依赖于语音端点检测(voice activity detection,VAD)。对音频信号的语音部分进行准确的检测和识别是进一步处理与应用的重要前提与必要步骤。随着新世界互联网的高速发展,传统的浅层机器学习模型在遇到了性能瓶颈。直到2006年,Hinton提出的深度学习方法开启了深度学习在学术界和工业界研究和应用的浪潮,其能够更好描述海量数据复杂特征的能力为解决语音端点检测在实际应用中可能遇到的问题提供了一种新的解决思路。本文将探索深度学习在音频事件检测中的应用。首先针对噪声环境下的语音端点检测问题,详细阐述了深度神经网络、循环神经网络与卷积神经网络的实现算法,并且做出了详细的对比分析。同时我们在实验中发现,以传统的帧级准确率作为评估准则的评测方法很难有效估计面向语音识别问题的VAD性能。因而,我们将帧级评估与段落级评估结合在一起,提出了一种新的评估框架,能够更准确的评估VAD系统的性能。另外,我们探索了基于深度学习的VAD算法的抗噪性,提出一种被称作噪声感知自适应的算法,将当前环境信息加入到输入层,通过深度学习自身的非线性处理能力学习背景环境对语音信号的非线性影响。
其他文献
随着知识经济社会的深入发展,技术的更新换代越来越迅速。在经济全球化大背景下,国家之间知识产权与技术创新的竞争也越来越激烈,知识产权必将成为国家重要的战略资源,社会对
随着自然环境的变化和科学文化的普及,人们对基因测序、地震频率和空气污染等影响人类生命健康的话题和数据日益关注。其中计数数据(count data)是大数据与人工智能时代进行
有关标出性的探讨从语言的“标记性”扩展到文化的“标出性”,至今已逐渐成为文化传播领域和符号学研究重点关注的命题。舞蹈作为一种古老而现代的文化传播形式,其艺术形式的
塔里木盆地麦盖提斜坡位于巴楚隆起的南部,目前在工区内发现了巴什托普油田、鸟山气藏及和田河气田,但对其演化及构造特征仍不是很清楚,尤其是不同时期断裂的发育情况以及储
长期的勘探开发显示塔西南坳陷有着非常广阔的油气勘探前景,然而研究程度相对较低,尤其是作为重要的烃源岩层和储层的石炭—二叠系,从而限制了整个塔西南坳陷的勘探进度。论
随着互联网的创新发展和广泛普及,越来越多的隐私泄露问题危害着人们和国家的财产安全。而传统的加密技术已经不能满足人们对于身份信息和位置信息的隐私性保护,因此匿名通信
2015年10月,《统筹推进世界一流大学和一流学科建设总体方案》由国务院颁布,其中重点培养拔尖创新人才,加强创新创业教育,大力推进个性化培养,由此可见培养创新人才已经上升
夹层板因其良好的物理和力学性能而在工程上得到了广泛的应用,相关的研究工作也有很多。但对于夹层环形板的大幅度振动问题,由于其非线性和结构的复杂性,相关的研究工作还十
C-H键的氧化活化在化学合成转化中有很重要的作用,如何有效提高C-H键的选择性活化一直以来都是研究者关注的重点。有机电化学活化过程中只涉及电子得失,符合“原子经济性”要
装备制造业在我国工业经济发展中有着重要地位,是我国经济发展的基础,也是增强国家竞争力的有力保障。于洪区作为沈阳市传统近郊区,在全市装备制造业发展进程中,有近50年的配