论文部分内容阅读
语言是实现人与人甚至机器之间便捷交流的信息工具,而语音信号是实现这种工具功能的介质。然而在现实生活生产中,语音信号经常会被各种类型的干扰噪声甚至是自身的反射信号所污染。受污染的语音,由于破坏了信号的结构、增添了干扰成分,就一方面会导致人类主观听觉感受质量的下降甚至疲劳和厌恶,另一方面严重影响语音内容的可懂度。语音增强所要实现的就是要抑制和消除接收信号中的干扰、噪声以及反射成分,恢复出干净的语音信号,从而提高语音的听觉质量和可懂度。可以根据污染噪声源的不同,将语音增强大体分为语音解混响、分离和降噪等三个问题,分别对应着污染源为自身反射产生的干扰成分、其他说话人的干扰语音以及环境中的干扰噪声。一般根据算法所使用通道麦克风数目可以将语音增强算法又大致分为单通道和多通道两大类。显然,单通道增强算法是语音增强的基础和基本方式,也常常可以和多通道技术结合,所以拥有广泛的研究基础和非常重要的研究价值。近些年来互联网尤其是移动互联网和智能设备的快速普及,使得语音数据的收集越来越方便和大量,这为各种训练学习类算法的实现提供了丰富的数据原料。基于此,也由于传统语音解混响和降噪方法的局限性和对非平稳干扰噪声的处理能力有限,本文研究了有监督学习条件下的单通道语音增强技术。结合近些年来兴起并迅速发展的字典学习和稀疏表示理论和方法,本文针对单通道语音降噪以及解混响和降噪问题进行了研究,提出了三种新的算法应用于语音增强中。其中主要的工作和创新点列举如下:首先,提出了基于区分性联合字典学习的单通道语音降噪算法。针对字典学习和稀疏表示类算法运用于语音降噪过程中遇到的两个重要问题:一、如何提高学习得到的语音和噪声字典之间的区分性;二、如何保持训练学习和增强测试两个阶段的稀疏表示的一致性。创新性地提出了结合约束交叉稀疏表示误差项和不同字典原子间相关性项的区分性联合字典优化训练方法,促进不同字典间的区分和判别力,从而提高稀疏表示的准确性。此外,通过训练阶段对混合信号的利用,统一了训练学习和增强测试两阶段的稀疏表示方式,保持了一致性。通过这两点的改进本文实现了更好的语音增强算法。其次,针对一般字典学习和稀疏表示类单通道降噪算法只是利用了信号时频幅度谱信息,没有充分挖掘出带噪信号中语音和噪声信号的其他联系。本文提出了比率掩码和掩码字典的概念,主要是充分利用带噪信号中的时频幅度谱中隐含的语音和噪声的比率掩码和近似为1的条件,这是由语音和噪声在时频谱域上的稀疏性近似保证的。然后,基于字典学习和稀疏表示方法,提出了联合语音时频幅度谱和比率掩码信息的联合字典学习算法,接着利用训练得到的信号字典和掩码字典组成的复合字典对带噪信号和混合比率掩码进行联合稀疏表示得到稀疏表示系数。将得到的稀疏表示系数结合对应的信号字典和掩码字典构建不同的掩码滤波器完成最终的语音降噪。实验结果验证了算法的有效性。最后,本文研究了单通道语音解混响和降噪问题,指出了之前的基于非负矩阵分解或者非负卷积模型的单通道语音解混响和降噪算法存在对房间冲激响应比较长情况下的收敛性和计算复杂度问题,创造性地提出了一种基于两步序贯的非负矩阵分解模型的语音解混响和降噪算法。该算法的关键之处是将一个较长的房间冲激响应分解为两个较短的冲激响应的卷积,然后实现分步序贯处理两个冲激响应下模型下的参数迭代更新求解问题。最后,利用求得的参数设计不同的滤波器实现语音增强。此外,本文借鉴集成学习和融合算法优势,设计了两种不同的融合算法实现更好的增强效果。实验结果验证了算法有效性。