语音端点检测的鲁棒性研究

来源 :广州大学 | 被引量 : 8次 | 上传用户：yinnahappy

【摘要】

：

随着信息化和智能化的不断推进,语音识别(Automatic Speech Recognition,ASR)、语音增强(Automatic Speech Enhancement,ASE)等技术越来越多的应用到人们的日常生活中。伴随

【作者】

：

陈旺

【出处】

：

广州大学

【发表日期】

：

2019年01期

【关键词】

：

语音端点检测 LSTM KL散度顺序统计滤波器低信噪比

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息化和智能化的不断推进,语音识别(Automatic Speech Recognition,ASR)、语音增强(Automatic Speech Enhancement,ASE)等技术越来越多的应用到人们的日常生活中。伴随着物联网浪潮的兴起,语音作为一种交互手段和生物识别的特征,将为未来的消费类电子产品领域提供强有力的技术支撑。语音端点检测(Voice Activity Detection,VAD)是一种用来区分待测音频信号中语音段与非语音段的技术,它直接影响着ASR、ASE等语音处理技术的性能。VAD算法可以由三个部分组成:其一是语音信号的预处理部分,主要包括语音信号的预加重、分帧以及加窗等;其二是对语音信号提取特征,主要有频域特征和时域特征等;其三是语音与非语音的分类算法。针对现阶段VAD算法在信噪比(Signal Noise Rate,SNR)降低、噪声环境复杂的情况下,检测效果急剧下降的问题。论文从分别从预处理、特征提取、判别模型选择等三个方面入手,尝试一系列解决方案对现有VAD算法进行改进,以提高其低SNR(-2dB)下的端点检测准确性与实时性。首先,针对现在使用基于双门限判决法的VAD算法在低SNR环境中检测性能较差的缺点,论文使用语音信号功率谱密度的KL(Kullback-Leibler)散度作为判别语音与非语音的一种特征,结合顺序统计滤波器(Order Static Filter,OSF)以及自适应阈值方法,设计了一种基于KL散度自适应阈值的VAD算法。其次,针对基于阈值判别模型无法利用语音信号长时信息的缺陷,采用长短时记忆(Long-Short-Term-Memory,LSTM)网络训练一个语音与非语音的判别模型,能够充分利用语音信号的长时信息。论文结合LSTM网络、KL散度特征、MFCC特征以及OSF,设计了一种基于LSTM神经网络的语音端点检测算法。最后,论文通过Python编程实现数据标注脚本进行端点标注,使用带标注的数据仿真分析了几种典型的VAD算法和两种改进算法的性能并给出了各自的数学模型。实验分析结果表明,论文中提出的两种改进的VAD算法具有更高的检测精度,更好的鲁棒性以及实时性。

其他文献

丽水市老年人体育锻炼现状调查

采用问卷调查、数理统计、文献资料、访谈等方法，对丽水市老年人体育健身时间、场地、项目、形式等进行调查，发现丽水市老年人参与体育锻炼的积极性高、锻炼手段较多、具有比较

期刊

丽水市老年人体育锻炼问卷调查

高职院校数据共享平台的研究与实现

本文主要针对高职院校在数据化校园建设中,大多引进和应用了一系列的信息系统,缺乏统一的规划,各应用系统间彼此间缺乏联系,独立运行,出现了“信息孤岛”现象,严重制约着高职

学位

数据平台共享交换数字化高职院校

光学曲面确定性抛光的面型精度控制研究

光学曲面零件是光学系统的关键元器件。近年来，随着光学曲面零件需求量的日趋增加和光学系统对其光学性能要求的不断提高，光学曲面零件在加工精度、轻量化程度、生产成本和生产

学位

光学曲面确定性抛光移动抛光材料去除面型精度抛光力抛光轨迹

以三个创新推进社区矫正教育工作

山东省司法厅以提高教育矫正质量为中心,以加强社区服刑人员教育工作为重点,不断创新教育内容、教育形式、教育评估机制,着力提高社区矫正教育工作的实效性、针对性和科学性,

期刊

社区矫正教育科学性矫正质量社区服刑人员心理矫治三个创新

卟啉类显色剂在重金属离子分析中的研究及应用

卟啉类试剂由于其特殊的光学性能而成为一种很有发展前途的有机显色剂，已广泛应用于金属离子的痕量测定．就国内外近年来卟啉类试剂在重金属离子分析中的研究及应用情况作了较系

期刊

卟啉重金属离子分光光度法荧光光度法高效液相色谱法

基于耗能连梁钢板阻尼器的高层结构耗能减振分析及应用

为改善传统连梁钢板阻尼器的适用性,提出了一种新型耗能连梁钢板阻尼器的设计方法,通过对阻尼器工作区域的划分与设计,使新型阻尼器充分发挥耗能作用,有效地提高了结构整体耗

期刊

高层结构耗能连梁钢板阻尼器嵌固区减振分析

奥美拉唑、枸橼酸铋钾联合阿莫西林治疗消化性溃疡的疗效观察

目的：探讨奥美拉唑、枸橼酸铋钾联合阿莫西林治疗消化性溃疡的临床疗效。方法选取我院2011年1月至2013年5月间收治的108例消化性溃疡患者作为研究对象，按照随机对照原则将患者

期刊

消化性溃疡奥美拉唑枸橼酸铋钾阿莫西林临床疗效

基于信息系统的医疗欠费管理流程优化

探讨如何通过医院信息系统对医疗欠费流程进行改造,在不影响正常医疗的前提下,进一步加强医院内部监控,降低医疗欠费风险,同时就医疗费用与病人实行有效沟通,做到费用透明化,

期刊

医疗欠费分级控制欠费短信平台

新时代背景下高校思政课教学中的“供给侧”改革

高校思政课与其它专业课既有共性,又呈现出其独有的特点。新时代背景下,教师的知识供给与学生对优质教育资源的需求形成了供需结构性矛盾,教师供给知识的供需匹配度低、供给

期刊

新时代高校思政课特点供给侧改革

不同桑叶提取物对小鼠脾脏淋巴细胞增殖能力的影响

试验旨在比较不同桑叶提取物对小鼠脾脏淋巴细胞增殖作用的影响。用不同浓度乙醇醇沉桑叶水提物，制备桑叶粗多糖MLP-1、MLP-2、MLP-3、MLP-4、MLP-5，采用苯酚硫酸法测定各提取

期刊

桑叶多糖桑叶水提物脾脏淋巴细胞增殖小鼠

语音端点检测的鲁棒性研究

其他学术论文