论文部分内容阅读
随着信息化和智能化的不断推进,语音识别(Automatic Speech Recognition,ASR)、语音增强(Automatic Speech Enhancement,ASE)等技术越来越多的应用到人们的日常生活中。伴随着物联网浪潮的兴起,语音作为一种交互手段和生物识别的特征,将为未来的消费类电子产品领域提供强有力的技术支撑。语音端点检测(Voice Activity Detection,VAD)是一种用来区分待测音频信号中语音段与非语音段的技术,它直接影响着ASR、ASE等语音处理技术的性能。VAD算法可以由三个部分组成:其一是语音信号的预处理部分,主要包括语音信号的预加重、分帧以及加窗等;其二是对语音信号提取特征,主要有频域特征和时域特征等;其三是语音与非语音的分类算法。针对现阶段VAD算法在信噪比(Signal Noise Rate,SNR)降低、噪声环境复杂的情况下,检测效果急剧下降的问题。论文从分别从预处理、特征提取、判别模型选择等三个方面入手,尝试一系列解决方案对现有VAD算法进行改进,以提高其低SNR(-2dB)下的端点检测准确性与实时性。首先,针对现在使用基于双门限判决法的VAD算法在低SNR环境中检测性能较差的缺点,论文使用语音信号功率谱密度的KL(Kullback-Leibler)散度作为判别语音与非语音的一种特征,结合顺序统计滤波器(Order Static Filter,OSF)以及自适应阈值方法,设计了一种基于KL散度自适应阈值的VAD算法。其次,针对基于阈值判别模型无法利用语音信号长时信息的缺陷,采用长短时记忆(Long-Short-Term-Memory,LSTM)网络训练一个语音与非语音的判别模型,能够充分利用语音信号的长时信息。论文结合LSTM网络、KL散度特征、MFCC特征以及OSF,设计了一种基于LSTM神经网络的语音端点检测算法。最后,论文通过Python编程实现数据标注脚本进行端点标注,使用带标注的数据仿真分析了几种典型的VAD算法和两种改进算法的性能并给出了各自的数学模型。实验分析结果表明,论文中提出的两种改进的VAD算法具有更高的检测精度,更好的鲁棒性以及实时性。