复杂环境下基于传声器阵列的语音增强方法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:zwj_10061
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代信息社会对高质量的语音通信和自然语音交互系统的需求正在日益增加,尤其是搭载语音应用的免提式远讲语音通信和交互设备正在逐渐走进我们的生活。由于应用环境越来越复杂,实际环境的复杂多变对传统语音通信和交互系统的鲁棒性提出了很大的挑战。如何减弱或去除噪声和混响对远讲语音通信和交互系统的负面影响是本文的研究重点。   传统的单通道算法由于只能利用时/频域信息,大多只对平稳或准平稳噪声有一定的抑制和消除作用。而当非平稳噪声存在或信噪比较低时,该类算法往往不能作出有效的贡献。而传声器阵列技术与单通道方法相比,其优势在于除了时、频域信息外,还能提供空间上的区分度,因此被广泛用来提高语音通信和自动语音识别系统的性能。然而,传统基于传声器阵列的语音增强方法在复杂环境下,尤其是方向性干扰源和背景扩散噪声同时存在时性能下降明显;另外,混响也是传声器阵列语音增强需要克服的负面因素。   本文主要研究了复杂环境下基于传声器阵列的语音增强方法,通过充分利用声学环境和语音信号本身带来的先验信息来提高算法在复杂环境下的性能。主要研究工作及创新点包括:   1.针对实际复杂环境下的多通道语音增强问题,提出了一种鲁棒广义旁瓣抵消和多通道后置滤波器算法。为了减弱广义旁瓣抵消的信号相消问题,提出了利用语音信号存在概率在每个听觉子带反馈控制自适应波束形成器更新的方法;同时将自适应干扰抵消在听觉子带内实现,提高了对多干扰源的抑制能力;多通道的后置滤波器不仅用来抑制扩散场噪声和残余的方向性干扰,而且用来提供子带反馈控制所需的子带语音信号存在概率估计;自适应波束形成器和多通道后置滤波器的交互带来了更好的信号保真,从而提高了算法整体的性能。   2.研究了宽边双传声器在多源非平稳环境下的嗓声消除问题。传统双传声器非自适应的方法在克服这一问题时通常会用到相位差或者声源到达角(DOA)信息,在指向性非平稳多干扰源和背景扩散噪声同时存在时性能下降明显。相位差反映了声源的到达角信息,幅度平方相干函数反映了噪声场的空间相干信息。为了利用信号和噪声场的空间域信息,提高在指向性非平稳干扰源和背景扩散噪声同时存在时谱幅度估计性能,本文提出了一种基于空间域信息的语音谱估计方法和基于空间域信息控制软决策的噪声谱估计方法。为了得到软决策信息,基于贝叶斯准则,同时利用相位差和幅度平方相干函数构建了目标语音存在概率估计方法。时频域的信息和空间域信息被同时用来提高传统谱幅度估计在非平稳多源环境下的性能。   3.提出了基于空间相干模型的双通道混响抑制算法:基于声场空间相干模型本文建立起了幅度平方相干函数(MSC)和直达声与混响能量比(DRR)之间的理论关系,并利用估计得到的DRR构建维纳滤波器实现对混响的抑制:为了进一步提高算法的性能,提出了一种估计扩散程度的方法,并根据每个时频点受混响影响程度来改变语音增强的增益函数。实验结果表明,与传统基于相干特性的算法相比,在混响抑制量和语音整体质量方面有明显改善。   4.提出了联合广义统计混响模型和声场空间相干模型的混响抑制算法。统计混响模型和声场空间相干模型从不同的角度反映了声学环境的信息,基于前者的方法对晚期混响有比较好的抑制作用,而基于后者的方法可以有效地减少早期混响的谱染色效应,为了同时利用声学冲激响应的统计特性和声场的空间相干特性,去除早期混响的谱染色效应和抑制晚期混响,本文将基于广义统计混响模型的晚期混响方差估计和提出的基于声场空间相干模型的方法结合在一起,进一步提高了混响抑制的性能和远讲语音识别的识别率。
其他文献
维拉帕米作用于S6跨膜结构域的Y652和F656氨基酸残基阻断HERG离子通道目的:研究维拉帕米对野生型及突变型HERG离子通道的阻断作用,并试图探寻发生在S6结构域的突变位点是否是维拉帕米与HERG结合的重要作用位点。方法:采用双微电极电压钳记录表达在非洲爪蟾卵母细胞上的HERG离子通道电流(野生型,Y652A型,F656A型)。结果:维拉帕米对野生型HERG离子通道的阻断作用呈浓度依赖性(半最
本论文对CO2、CH4这两种最重要的温室气体的相关研究背景、现状及理论基础进行了系统性的总结,并利用编写的“温室气体卫星数据可视化分析系统”,对SCIAMACHY、AIRS、GOSAT等
轮询就是周期性的往返运动,在控制领域表现为对有限的资源进行有效的分配和共享,在计算机网络通信领域表现为对有限的带宽资源或者信道的控制权进行合理的分配和共享。在下一
丛枝菌根真菌(Arbuscular Mycorrhizal Fungi,AMF)能与陆地上80%的植物形成共生体系,是最古老的共生体系之一。诸多研究表明AM真菌影响植物的矿质养分和水分吸收及生长发育过程,在
人体检测技术是模式识别和计算机视觉领域中的一个核心问题,而静态图像中的人体检测技术在驾驶员辅助系统、人体运动捕捉、色情图片过滤以及虚拟视频等领域有重要的应用价值。
许多研究表明,接种外生菌根真菌后,能扩大根系的吸收养分和水分的范围,提高吸收养分和水分的能力,同时增加土壤养分的有效性。这些都有利于植物旺盛生长,植物生物量的提高。
背景材料:一直以来,互联网金融话题热度不减。近日,“2015金融中国峰会”、“2015中国互联网金融创新与发展论坛”、“国家监管下的互联网金融之路”主题圆桌论坛等的密集举
在世界范围内,冠状动脉心脑血管疾病已经成为现阶段人类疾病死亡的最主要原因,动脉粥样硬化(atheroselerosis,AS)斑块的破裂是引发心脑血管疾病的最重要因素。它主要是由心肌梗
音频信号是实现信息传递最简单、最有效的手段,但是音频信号很容易在传输过程中混入噪声,噪声的干扰将严重影响到音频信号的质量,同时会对后续的音频信号处理如端点检测、音频识
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊