复杂环境下基于传声器阵列的语音增强方法研究

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：zwj_10061

【摘要】

：

现代信息社会对高质量的语音通信和自然语音交互系统的需求正在日益增加,尤其是搭载语音应用的免提式远讲语音通信和交互设备正在逐渐走进我们的生活。由于应用环境越来越复

【作者】

：

李凯

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2012年期

【关键词】

：

传声器阵列语音增强广义旁瓣抵消短时谱幅度估计混响抑制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现代信息社会对高质量的语音通信和自然语音交互系统的需求正在日益增加,尤其是搭载语音应用的免提式远讲语音通信和交互设备正在逐渐走进我们的生活。由于应用环境越来越复杂,实际环境的复杂多变对传统语音通信和交互系统的鲁棒性提出了很大的挑战。如何减弱或去除噪声和混响对远讲语音通信和交互系统的负面影响是本文的研究重点。　　传统的单通道算法由于只能利用时/频域信息,大多只对平稳或准平稳噪声有一定的抑制和消除作用。而当非平稳噪声存在或信噪比较低时,该类算法往往不能作出有效的贡献。而传声器阵列技术与单通道方法相比,其优势在于除了时、频域信息外,还能提供空间上的区分度,因此被广泛用来提高语音通信和自动语音识别系统的性能。然而,传统基于传声器阵列的语音增强方法在复杂环境下,尤其是方向性干扰源和背景扩散噪声同时存在时性能下降明显;另外,混响也是传声器阵列语音增强需要克服的负面因素。　　本文主要研究了复杂环境下基于传声器阵列的语音增强方法,通过充分利用声学环境和语音信号本身带来的先验信息来提高算法在复杂环境下的性能。主要研究工作及创新点包括:　　 1.针对实际复杂环境下的多通道语音增强问题,提出了一种鲁棒广义旁瓣抵消和多通道后置滤波器算法。为了减弱广义旁瓣抵消的信号相消问题,提出了利用语音信号存在概率在每个听觉子带反馈控制自适应波束形成器更新的方法;同时将自适应干扰抵消在听觉子带内实现,提高了对多干扰源的抑制能力;多通道的后置滤波器不仅用来抑制扩散场噪声和残余的方向性干扰,而且用来提供子带反馈控制所需的子带语音信号存在概率估计;自适应波束形成器和多通道后置滤波器的交互带来了更好的信号保真,从而提高了算法整体的性能。　　 2.研究了宽边双传声器在多源非平稳环境下的嗓声消除问题。传统双传声器非自适应的方法在克服这一问题时通常会用到相位差或者声源到达角(DOA)信息,在指向性非平稳多干扰源和背景扩散噪声同时存在时性能下降明显。相位差反映了声源的到达角信息,幅度平方相干函数反映了噪声场的空间相干信息。为了利用信号和噪声场的空间域信息,提高在指向性非平稳干扰源和背景扩散噪声同时存在时谱幅度估计性能,本文提出了一种基于空间域信息的语音谱估计方法和基于空间域信息控制软决策的噪声谱估计方法。为了得到软决策信息,基于贝叶斯准则,同时利用相位差和幅度平方相干函数构建了目标语音存在概率估计方法。时频域的信息和空间域信息被同时用来提高传统谱幅度估计在非平稳多源环境下的性能。　　 3.提出了基于空间相干模型的双通道混响抑制算法:基于声场空间相干模型本文建立起了幅度平方相干函数(MSC)和直达声与混响能量比(DRR)之间的理论关系,并利用估计得到的DRR构建维纳滤波器实现对混响的抑制:为了进一步提高算法的性能,提出了一种估计扩散程度的方法,并根据每个时频点受混响影响程度来改变语音增强的增益函数。实验结果表明,与传统基于相干特性的算法相比,在混响抑制量和语音整体质量方面有明显改善。　　 4.提出了联合广义统计混响模型和声场空间相干模型的混响抑制算法。统计混响模型和声场空间相干模型从不同的角度反映了声学环境的信息,基于前者的方法对晚期混响有比较好的抑制作用,而基于后者的方法可以有效地减少早期混响的谱染色效应,为了同时利用声学冲激响应的统计特性和声场的空间相干特性,去除早期混响的谱染色效应和抑制晚期混响,本文将基于广义统计混响模型的晚期混响方差估计和提出的基于声场空间相干模型的方法结合在一起,进一步提高了混响抑制的性能和远讲语音识别的识别率。

其他文献

维拉帕米作用于S6跨膜结构域的Y652和F656氨基酸残基阻断HERG离子通道

维拉帕米作用于S6跨膜结构域的Y652和F656氨基酸残基阻断HERG离子通道目的：研究维拉帕米对野生型及突变型HERG离子通道的阻断作用，并试图探寻发生在S6结构域的突变位点是否是维拉帕米与HERG结合的重要作用位点。方法：采用双微电极电压钳记录表达在非洲爪蟾卵母细胞上的HERG离子通道电流(野生型，Y652A型，F656A型)。结果：维拉帕米对野生型HERG离子通道的阻断作用呈浓度依赖性(半最

学位

维拉帕米HERG钾离子通道电压钳

基于红外高光谱卫星资料的温室气体反演产品与时空特征研究

本论文对CO2、CH4这两种最重要的温室气体的相关研究背景、现状及理论基础进行了系统性的总结,并利用编写的“温室气体卫星数据可视化分析系统”,对SCIAMACHY、AIRS、GOSAT等

学位

卫星遥感温室气体地基验证时空特征数据可视化

门限服务和完全服务的两级轮询系统E(x)特性分析

轮询就是周期性的往返运动,在控制领域表现为对有限的资源进行有效的分配和共享,在计算机网络通信领域表现为对有限的带宽资源或者信道的控制权进行合理的分配和共享。在下一

学位

无线自组织网轮询系统完全服务门限服务离散时间

AM真菌泌出物在植物基础代谢和响应磷胁迫中的作用机制研究

丛枝菌根真菌（Arbuscular Mycorrhizal Fungi，AMF）能与陆地上80％的植物形成共生体系，是最古老的共生体系之一。诸多研究表明AM真菌影响植物的矿质养分和水分吸收及生长发育过程，在

学位

AM真菌泌出物宿主植物生理代谢磷胁迫机制基因表达

基于矩形特征自学习的人体检测技术研究

人体检测技术是模式识别和计算机视觉领域中的一个核心问题，而静态图像中的人体检测技术在驾驶员辅助系统、人体运动捕捉、色情图片过滤以及虚拟视频等领域有重要的应用价值。

学位

Multi-Block特征人体检测Adaboost算法图像分割统计学习级联分类器

外生菌根真菌侵染马尾松土壤酶活性变化研究

许多研究表明,接种外生菌根真菌后,能扩大根系的吸收养分和水分的范围,提高吸收养分和水分的能力,同时增加土壤养分的有效性。这些都有利于植物旺盛生长,植物生物量的提高。

学位

外生菌根真菌马尾松土壤酶活性

聚焦互联网金融监管

背景材料:一直以来,互联网金融话题热度不减。近日,“2015金融中国峰会”、“2015中国互联网金融创新与发展论坛”、“国家监管下的互联网金融之路”主题圆桌论坛等的密集举

期刊

互联网背景材料圆桌论坛中国人民银行金融业务金融机构银行工作人员早前小微分业监管

基于IVUS图像配准的血管壁应变评估

在世界范围内，冠状动脉心脑血管疾病已经成为现阶段人类疾病死亡的最主要原因，动脉粥样硬化(atheroselerosis，AS)斑块的破裂是引发心脑血管疾病的最重要因素。它主要是由心肌梗

学位

动脉粥样硬化血管内超声成像斑块易损性边缘提取弹性配准

基于SOPC的音频采集去噪系统设计

音频信号是实现信息传递最简单、最有效的手段，但是音频信号很容易在传输过程中混入噪声，噪声的干扰将严重影响到音频信号的质量，同时会对后续的音频信号处理如端点检测、音频识

学位

SOPC小波变换DSPbuilder阈值去噪

牡丹图

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

牡丹图

复杂环境下基于传声器阵列的语音增强方法研究

其他学术论文