不同掩蔽模型下语音增强的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:tx_programming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在目前存在的多种语音增强算法里,谱减法凭借着语音增强效果较好、算法复杂度适中和较容易实时处理实现而得到了广泛的应用。谱减法通过预先估计噪声谱的幅度,再从原始带噪语音中减去噪声谱幅度而相位不变的处理方法得到增强后的语音。由于对噪声谱进行准确估计的难度很大,谱减算法为了得到较高的处理后语音信噪比,往往对噪声谱采取了过减的方法,这样就不可避免地引入了额外的失真-音乐噪声。由于掩蔽效应的存在,当语音强度较大时,一部分噪声会被语音掩蔽掉,这一部分噪声便不必要进行处理了。因此在现有的谱减法语音增强算法里,有些算法应用了掩蔽效应以便减少残留的音乐噪声。但是,掩蔽模型的引入对语音增强效果的影响,并没有得到全面的研究。表现在掩蔽量的计算上采用最保守的掩蔽曲线。各个临界频带的互相掩蔽影响也采用了固定的矩阵。而实际上,不同的人群的听觉特性是不一样的,现今的研究成果也表明了掩蔽阈值与很多因素如生理特点,种族因素等有关,不能一概而定。因此,在应用掩蔽效应的算法里面,掩蔽量大小是否应该针对不同的情况使用不同的掩蔽曲线?例如,象AC-3的编码算法一样,推荐使用不同的掩蔽曲线组合。 本文首先总结了现在的各种语音增强算法,再详细地介绍了谱减法及其改进的算法以及常用的噪声谱估计算法。对两种最常用的噪声估计算法-VAD噪声检测估计和基于最小值统计特性的噪声估计法,分别运用间接和直接的方法把掩蔽效应引入语音增强算法中,运用不同的掩蔽阈值偏移量计算了增强前后的信噪比(SNR)并进行了主观试听实验。客观计算结果表明:掩蔽效应的运用对语音增强效果的影响是很大的,在不使用掩蔽效应的情况下,最优最小统计值法语音增强的SNR增加很多,从而可能引入更大的音乐噪声。但无论对VAD噪声检测估计法和基于最小值统计特性的噪声估计法,掩蔽阈值偏移量的少量变化对SNR的影响都不是很大,说明掩蔽阈值与噪声幅值、语音幅值相比,是一个很小的量,掩蔽阈值的少量改变不会对SNR产生大的影响。主观试听的结果表明了:在不同的噪声类型情况下改变掩蔽模型所得到的主观试听结果有所不同,在宽带噪声如白噪声情形下,加大或减少掩蔽阈值较多时,多数受试者认为语音质量变差。而在人声噪声的情形下,加大掩蔽阈值时,多数受试者认为语音质量变好。本文同时对各个临界频带互相掩蔽而得的传播函数进行了计算分析,由于传播函数主要由临界带间的相互掩蔽曲线的上升斜率和下降斜率所决定,因此当改变这些斜率时,语音增强的效果也有可能发生改变。但最终信噪比计算结果和主观试听结果表明:对所选用的语音信号和噪声信号,传播函数斜率的变化并未带来可见或可闻的变化。
其他文献
金属介电周期性结构具有独特的控制光子传输的特性,是构造新型光子学器件的重要基础。本文通过理论模拟,详细研究了基于金属介电周期性结构的可调谐光学滤波器和可调谐表面等离
近几年的研究表明,在鬼成像、鬼干涉和亚波长干涉实验中,类热光源可扮演与双光子纠缠源相似的角色,这说明两种光源的关联性质具有相似之处。本论文首先从理论上阐明了双光子纠缠
管道系统在船舶、水利、化工、航空航天等领域有着非常广泛的应用背景。管道中的噪声传播和噪声控制是非常重要的研究内容。由于管道中风扇或泵机的往复或旋转运动,其中的噪声
学位
本论文包括两方面内容。第一部分讨论黑洞热力学的量子修正问题;第二部分对黑洞的霍金辐射及信息丢失佯谬给出了一些解释。全文共分为三章: 第一章足综述。将简要介绍论文的
【教学目标】1.指导学生掌握竖弯钩的书写要领。2.学写“元”“色”两字,让学生感受毛笔字的美妙,激发学生写字的兴趣。3.通过教师的示范、指导,让学生学会观察、学会审美,写
在过去的十几年中,国际标准化组织制订了一系列的国际视频编码标准并广泛应用到各种领域。其中,ITU-T制订了满足实时视频通信应用的标准,例如H.261,H.263,H.263+和H.263++;IS
写作,在人们学习、生活中应用广泛、必不可少。因此,作文教学在语文教学中占有十分重要的地位。然而一直以来,作文教学费时费力、成效不大,这让不少语文教师感到棘手,让很多
本论文内容包括两个方面。第一部分讨论黑洞的Hawking辐射以及信息疑难问题。第二部分讨论了Casimir效应。论文的组成具体分成三章: 在第一章中,我们首先介绍了黑洞热力学发
鉴于半导体技术在过去的半个世纪中对社会生产力所产生的巨大推动作用,一种可以控制光子的光学材料-光子晶体--被人们寄予了厚望。经过二十多年的发展,光子晶体的广阔应用前景
本文通过研究互联网为代表的通信系统的功能、所提供服务的能力,提出了一种具有三个维度通信能力(包括:数据传送能力、信息存储能力和语义计算能力)的沟通网络数学模型,即STL沟