语音端点检测的鲁棒性研究

来源 :广州大学 | 被引量 : 8次 | 上传用户:yinnahappy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化和智能化的不断推进,语音识别(Automatic Speech Recognition,ASR)、语音增强(Automatic Speech Enhancement,ASE)等技术越来越多的应用到人们的日常生活中。伴随着物联网浪潮的兴起,语音作为一种交互手段和生物识别的特征,将为未来的消费类电子产品领域提供强有力的技术支撑。语音端点检测(Voice Activity Detection,VAD)是一种用来区分待测音频信号中语音段与非语音段的技术,它直接影响着ASR、ASE等语音处理技术的性能。VAD算法可以由三个部分组成:其一是语音信号的预处理部分,主要包括语音信号的预加重、分帧以及加窗等;其二是对语音信号提取特征,主要有频域特征和时域特征等;其三是语音与非语音的分类算法。针对现阶段VAD算法在信噪比(Signal Noise Rate,SNR)降低、噪声环境复杂的情况下,检测效果急剧下降的问题。论文从分别从预处理、特征提取、判别模型选择等三个方面入手,尝试一系列解决方案对现有VAD算法进行改进,以提高其低SNR(-2dB)下的端点检测准确性与实时性。首先,针对现在使用基于双门限判决法的VAD算法在低SNR环境中检测性能较差的缺点,论文使用语音信号功率谱密度的KL(Kullback-Leibler)散度作为判别语音与非语音的一种特征,结合顺序统计滤波器(Order Static Filter,OSF)以及自适应阈值方法,设计了一种基于KL散度自适应阈值的VAD算法。其次,针对基于阈值判别模型无法利用语音信号长时信息的缺陷,采用长短时记忆(Long-Short-Term-Memory,LSTM)网络训练一个语音与非语音的判别模型,能够充分利用语音信号的长时信息。论文结合LSTM网络、KL散度特征、MFCC特征以及OSF,设计了一种基于LSTM神经网络的语音端点检测算法。最后,论文通过Python编程实现数据标注脚本进行端点标注,使用带标注的数据仿真分析了几种典型的VAD算法和两种改进算法的性能并给出了各自的数学模型。实验分析结果表明,论文中提出的两种改进的VAD算法具有更高的检测精度,更好的鲁棒性以及实时性。
其他文献
采用问卷调查、数理统计、文献资料、访谈等方法,对丽水市老年人体育健身时间、场地、项目、形式等进行调查,发现丽水市老年人参与体育锻炼的积极性高、锻炼手段较多、具有比较
本文主要针对高职院校在数据化校园建设中,大多引进和应用了一系列的信息系统,缺乏统一的规划,各应用系统间彼此间缺乏联系,独立运行,出现了“信息孤岛”现象,严重制约着高职
光学曲面零件是光学系统的关键元器件。近年来,随着光学曲面零件需求量的日趋增加和光学系统对其光学性能要求的不断提高,光学曲面零件在加工精度、轻量化程度、生产成本和生产
山东省司法厅以提高教育矫正质量为中心,以加强社区服刑人员教育工作为重点,不断创新教育内容、教育形式、教育评估机制,着力提高社区矫正教育工作的实效性、针对性和科学性,
卟啉类试剂由于其特殊的光学性能而成为一种很有发展前途的有机显色剂,已广泛应用于金属离子的痕量测定.就国内外近年来卟啉类试剂在重金属离子分析中的研究及应用情况作了较系
为改善传统连梁钢板阻尼器的适用性,提出了一种新型耗能连梁钢板阻尼器的设计方法,通过对阻尼器工作区域的划分与设计,使新型阻尼器充分发挥耗能作用,有效地提高了结构整体耗
目的:探讨奥美拉唑、枸橼酸铋钾联合阿莫西林治疗消化性溃疡的临床疗效。方法选取我院2011年1月至2013年5月间收治的108例消化性溃疡患者作为研究对象,按照随机对照原则将患者
探讨如何通过医院信息系统对医疗欠费流程进行改造,在不影响正常医疗的前提下,进一步加强医院内部监控,降低医疗欠费风险,同时就医疗费用与病人实行有效沟通,做到费用透明化,
高校思政课与其它专业课既有共性,又呈现出其独有的特点。新时代背景下,教师的知识供给与学生对优质教育资源的需求形成了供需结构性矛盾,教师供给知识的供需匹配度低、供给
试验旨在比较不同桑叶提取物对小鼠脾脏淋巴细胞增殖作用的影响。用不同浓度乙醇醇沉桑叶水提物,制备桑叶粗多糖MLP-1、MLP-2、MLP-3、MLP-4、MLP-5,采用苯酚硫酸法测定各提取