基于加权FSVQ和SVM的说话人识别算法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:e5134
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术是生物认证技术的一个范畴,由于语音采集容易、经济性高等优点,使得说话人识别成为生物识别领域上研究的一个焦点。本论文首先讨论了端点检测以及特征提取的方法,然后在VQ的基础上提出了加权FSVQ,并将其与SVM融合进行说话人识别,取得了一定的研究成果。   一些端点检测技术包括倒谱特征,信息熵,谱熵等对孤立词语音的端点检测都能达到很好的效果,但是说话人识别中用到的更多的是连续语音,实验结果显示,短时能量和过零率对连续语音的端点检测更为有效。这主要是因为短时能量和过零率综合考虑了语音的能量和频率。   矢量量化作为一种比较常用的说话人识别方法,虽然在编码率较低的情况下,其识别率并不高,但是其训练速度快。因此,本论文为了提高矢量量化在低编码率情况下的识别率,提出了加权FSVQ。加权FSVQ认为任一时刻系统都处,于一个特定的状态,当前系统的状态是由前一时刻的语音帧决定的。由于考虑到了语音信号帧间的关联性,使得加权FSVQ相比传统VQ有着更高的识别率。实验证明该方法相对于传统矢量量化在识别率上有一定的提高,特别是在码字较少时(少于8),识别率有lO%以上的提高。   对加权FSVQ的加权系数进行探讨是本论文的另外一个重点,对比分析了按贡献率加权、按量化精度加权、按贡献率和量化精度结合加权以及未加权四种加权策略,实验结果证明按贡献率和量化精度结合加权可使加权FSVQ可达到最高识别率。   加权FSVQ继承了VQ在训练速度上的优点,这主要体现在当编码率较低时,加权FSVQ能够快速实现对大样本的训练,而这一点正是SVM所欠缺的。相比加权FSVQ,SVM的主要优势在于对小样本的识别精度上,SVM能够对小样本实现高精度的快速识别。针对两类方法存在的缺陷,为了有效地提高说话人识别的识别率,将二者进行融合,并最大可能地发挥二者的优势。基于加权FSVQ和SVM融合的说话人识别方法采用的是先选定候选人,后确定的原则。实验数据显示:采用加权FSVQ作为第一种语音模型,SVM作为第二种语音模型的级联模式进行融合,在将20人作为候选人的情况下,能够将单一识别率由83.721%提高到94.080%。
其他文献
控制软件平台是地震勘探装备中必不可少的组成部分,借助于电子仪器仪表和网络通信技术的迅速发展,地震勘探设备开发得以实质性推进,软件水平也大幅提升。由于Windows提供了良
随着相关学科的发展,立体视频成为图像与视频处理领域新的研究方向,立体电视技术也成为了第四代电视技术。立体电视技术包括立体图像的获取、处理、传输、显示及观看五个部分
认知无线电(Cognitive Radio,CR)相比传统的无线网络具有更大的挑战。本论文以CRAHNs网络中的MAC层机会频谱接入以及路由安全为研究对象,研究CRAHNs网络设计实现中的关键技术
道路表面存在很多缺陷,裂缝是常见的一种缺陷。道路表面还存在其它附属物,例如标志线、井盖、切割线等。目前国内对裂缝缺陷及附属物的检测主要依靠人工,人工检测效率低、可
随着电子技术、自动化控制和计算机应用的发展,台式机器人的运动控制不断向着高精度、高速度、微型化、智能化和通用化方向发展。目前,以数字信号处理器(DSP)和现场可编程逻
目前,我国筷子生产行业,仍采用人工目检的方式挑选筷子,然而人工检测存在效率低、成本高、工作环境恶劣等缺点。随着生产速度的提高以及越来越严格的质量要求,传统人工瑕疵检
随着网络技术和多媒体技术的迅猛发展,基于网络的多媒体获得了十分广泛的应用。当前的媒体应用环境具有网络形式的异构性、终端设备的多样性以及多媒体应用的复杂性等特点,从
声源定位拥有广阔的应用前景,也得到了很多研究人员的关注。其应用从单一声源定位到音视频信息联合,都有广泛的应用,实现方式和算法也变得越来越丰富多样。本文研究了基于FPG
阵列信号处理是信号处理领域中的一个极其重要的分支。尤其是近二十年来,随着电子技术、计算机技术和元器件工艺的迅猛发展,阵列信号处理在雷达、声纳、通信、地震勘测、气象
图像中的阴影会对计算机视觉图像信息产生干扰,引起图像质量下降,并导致物体分割、目标识别及追踪等处理结果不稳定甚至失败,严重影响了计算机视觉图像处理算法的性能。为了