论文部分内容阅读
随着通信技术的发展,电话会议系统、车载免持电话和VoIP等通信系统不断涌现,并且随着智能可穿戴设备、智能家居和智能车载系统等领域的兴起,越来越多的设备如智能音箱,智能手表等具有语音交互功能。这些设备需要满足用户在各种实际声学环境下进行语音通信或交互的需求,如在嘈杂的户外和在混响较强的室内等。在这些实际环境中,目标语音容易受到环境噪声、非目标说话人干扰和房间混响等信号的影响。为了提高语音质量,实际中需要设计算法对传声器采集到的信号进行增强处理,使得语音增强技术研究成为一个重要课题。而且很多设备由于尺寸和成本的限制,通常只有一个传声器拾取信号,使得单通道语音增强技术成为一个研究热点。传统的单通道语音增强算法一般只能处理较平稳的噪声,对非平稳噪声抑制效果不佳,限制了这类算法在实际场景中的应用。本文主要研究了复杂环境下基于数据训练的单通道语音增强算法,利用训练数据本身带来的先验信息来提高算法对非平稳噪声的抑制能力。主要研究工作及创新点包括: 1.对语音信号的时间连续性进行研究。标准的基于非负矩阵分解的单通道语音增强算法不需要假设噪声是平稳信号,而且能够利用语音和噪声训练数据中的先验信息,因此能够对非平稳噪声有较好的抑制效果。然而该算法假设语音相邻帧是相互独立的,没有考虑语音信号的时间连续性。本文提出了一种基于非负矩阵分解和k均值聚类的语音建模方法,能同时对语音信号的频谱结构信息和时间连续性信息建模。并且将该语音建模方法和因子条件随机场结合对混合信号的时间动态特性建模,用于分离两个说话人的语音信号以及分离语音和噪声信号。实验结果表明,该算法相比其它一些算法在主客观评价指标上都有较大的提升。 2.对基于非负矩阵分解的无监督语音增强算法进行研究。在基于非负矩阵分解的无监督语音增强算法中,首先通过大量语音训练数据得到全局语音模型,然后通过组稀疏惩罚项从全局语音模型中选择少量的说话人字典描述测试信号中未见过的说话人语音信号,同时从测试信号中估计噪声字典,实现无监督语音增强。本文针对算法中的组稀疏惩罚项进行研究,分别提出了基于自适应组稀疏惩罚项和动态组稀疏惩罚项的无监督增强算法,能够更好地从全局语音模型中选择匹配的语音字典。结果表明,所提组稀疏惩罚项能够在保留语音成分的同时抑制更多的噪声信号,提高增强效果。除此之外,我们提出了一种与说话人无关的语音模型,相比全局语音模型能够更好地对语音频谱进行建模,然后将所提语音模型用于无监督在线语音增强,对测试信号逐帧进行增强处理,具有重要的实践价值。 3.对基于非负矩阵分解和深度神经网络的语音增强算法进行研究。近年来,非负矩阵分解和深度神经网络已经被结合用于单通道语音增强,其中非负矩阵分解用于描述语音信号的频谱结构,深度神经网络用于估计非负矩阵分解的权重矩阵。在本文中,我们将性别信息引入到基于非负矩阵分解和深度神经网络的语音增强算法中,通过引入新的先验信息,即性别信息来进一步提高语音增强效果。在训练阶段,针对男性和女性说话人分别训练深度神经网络-非负矩阵分解模型;在增强阶段,提出了一种性别鉴定算法用于判断每段测试信号中的说话人性别,然后选用对应性别的模型进行语音增强。实验结果表明增加说话人性别这一先验信息能够有效提高增强效果。 4.对混响环境下的语音增强算法进行研究。在本文中,我们提出了一种混响环境下的理想浮值掩蔽定义,将目标语音的直达声和早期混响部分作为期望信号,晚期混响部分和噪声作为残余信号。然后采用深度神经网络模型估计新定义的理想浮值掩蔽,最后将估计得到的浮值掩蔽用于原始信号进行语音增强。同时我们也进行了一系列实验来对噪声和混响对于增强结果的影响进行了研究。实验结果表明,在很多测试环境下,本文所提算法相比原始信号都能够有效提高语音质量和可懂度。