论文部分内容阅读
语音是人与人、人与机器之间交互最自然的媒介,噪声的干扰不仅会降低语音交互的质量,还会严重影响如语音识别和说话人识别等系统的性能。语音端点检测是让机器在嘈杂的环境中检测语音在某一时刻是否出现的技术,是很多语音信号系统的预处理步骤,具有十分重要的意义。本文介绍了现有端点检测方法的基本原理,对基于深度学习的方法进行了分析和实验,针对其中的问题提出了三个方面的改进:1.提出了基于深度卷积长短时记忆网络的两阶段训练方法。深度卷积长短时记忆网络是端点检测最新的深度学习模型,本文分析其结构特点,将训练过程分为非时序和时序两个阶段,提高了数据的利用率。2.提出了一种以语音增强的自编码为辅助特征的端点检测联合算法。通过分析语音端点检测和语音增强三类联合算法的交互特点,提出一种自编码辅助特征的联合模型,扩展了联合形式,提高了端点检测的性能,并实现了超参数权重的自动调整。3.提出了基于似然比检验的语音端点检测方法的改进算法。对似然比检验算法的基本原理进行了研究,针对参数估计不准和阈值需要人为设定这两个缺陷,设计了融合统计信号处理和深度学习的算法,利用时频掩蔽估计参数,然后利用全局平均池化计算阈值。与传统信号处理的基线方法对比显示,本方法的两个部分能分别提升基线系统的性能;与端到端的深度学习方法对比,在模型规模相当的情况下,该方法具有明显优势。