基于小波分析的语音特征参数及其在说话人识别中的应用研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:wangzhaohai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从语音信号中有效地提取个人特征信息进行说话人身份的识别,是语音识别研究领域的一个重要研究方向。在身份验证、信息检索等领域,自动说话人识别都具有广泛的应用前景,其研究具有越来越重要的社会意义和实用价值。 一个人的语音受时间、环境、身体状况以及说话内容等条件的影响变化比较大,如何提取表征说话人个性的特征是说话人识别中的一个难点。常规的特征参数构造基本都是基于短时傅立叶变换,它是在短时平稳假定的基础上获取时频局部化信息,具有固有的时频分辨率,对于语音信号这种非平稳信号,存在很大的缺陷。而小波分析是传统傅立叶变换的继承和发展,是一种信号的时间-尺度(时间-频率)分析方法,具有多分辨率分析的特点,在时频两域都具有表征信号局部特征的能力,是一种时间窗和频率窗都可以改变的时频局部化分析方法。本论文详细研究了小波分析的知识,将其应用到说话人识别的特征参数提取中,并通过实验分析其性能。论文主要工作如下: 首先,研究了说话人识别的相关知识,主要包括常用的语音特征参数及说话人识别模型。其中重点介绍了LPC、LPCC及MFCC参数和本文所采用的识别模型(GMM模型)。 其次,分析语音特征参数的提取过程,通过具体实验分析了常用特征参数LPC、LPCC和MFCC在不同信噪比环境下的性能。并对主流特征进行二次处理,包括特征差分和特征组合,进一步剥离出隐藏在语音背后的说话人特征,分析其性能。 再次,研究了小波分析的原理,主要介绍了小波变换和小波包变换的知识等,并分析了其在说话人识别中的应用前景和优势。 最后,在充分比较小波变换和小波包变换的基础上,本论文选择基于小波包变换和LPCC参数进行特征提取,以提取出更多的说话人的动态信息,并进行实验分析其性能。
其他文献
随着Internet技术和网络业务的飞速发展,用户对网络资源的需求空前增长,网络也变得越来越复杂。不断增加的网络用户和应用,导致网络负担沉重,网络设备超负荷运转,从而引起网络性能
随着网络和多媒体技术的发展,出现了众多的图像数据库,且图像数据库的图像数量也在急剧地增加。用户越来越迫切地需要对大型图像数据库进行检索。基于内容的图像检索技术(CBIR)得
基于Slepian-Wol和Wyner-Ziv理论的分布式视频编码是适应当前视频上行链路传输模型而提出的一种新的视频压缩框架。不同于传统的视频压缩框架,分布式视频编码将大量计算复杂度
低密度校验(LDPC)码是基于稀疏校验矩阵的线性分组码,它最初由Gallager于1962年提出,当时并未受到人们的重视。经数十年的沉寂,随着计算机能力的增强和相关理论(如图论、BP算
正交频分复用(OrthogonalFrequencyDivisionMultiplexing,OFDM)因其抗多径干扰能力强和频谱利用率高,被视为下一代移动通信系统的核心技术之一。多输入多输出(Multiple-InputMu
在第三代移动通信系统中,空时编码(space-time coding)技术是抗信道衰落和提高系统容量的一种最新编码方法。近年来,许多机构都在研究基于MIMO天线系统的空时编码技术。多天线系