论文部分内容阅读
摘要:该文研究了在基于矢量量化的说话人识别方法中采用加权的失真测度对识别率的影响。在采用加权欧氏距离失真测度时,利用特征参数的离散程度来确定权值,提出了基于标准差的加权失真测度和基于方差的加权失真测度。实验结果表明,在以MFCC为特征参数的说话人识别系统中,使用这两种算法均可以提高识别率。
关键词: 说话人识别;矢量量化;标准差;方差
中图分类号:TP391文献标识码:A文章编号:1009-3044(2008)35-2228-02
A Kind of Speaker Recognition Techonlogy Based on Weighted Vector Quantization
LI Na, CUI Lian-yan, LI Lan-lan
(Liaoning University of Technology, School of Electronics and Informatics Engineering, Jinzhou 121000, China)
Abstract: This article researches the effect of weighted distortion measure to recognition rate in the way of VQ speaker recognition. It uses dispersion degree of the characteristic parameter to ensure the value of weight, and advances weighted distortion measure based on standard deviation and variance. The experiment shows that the two method can increase the correct rate of speaker recognition using “MFCC” as characteristic parameter.
Key words: speaker recognition; vector quantization; standard deviation; variance
基于VQ的说话人识别模型,与其他模型(如GMM)相比具有计算简单,实时性强的特点,因而得到广泛的应用。但它的识别率较低,为了提高识别率,人们对基本的VQ方法进行了各种各样的改进,其中包括两种途径:一种是设计一个加权的距离函数,如IHM和PNDM方法;另一种是研究说话者之间的语音特点,从而设计有区分能力的权值,如GVQ方法。本文就第二种方法进行了研究,分别提出了基于方差和基于标准差的加权失真测度,并对这两种失真测度的性能进行了实验验证。
1 基本的VQ识别模型
基于VQ[1]的说话人识别系统,矢量量化起着双重作用。在训练阶段,从讲话者的若干训练样本中提取出特征参数,通过LBG算法[2]生成用户的VQ模板即码本,使矢量量化码本与说话人一一对应。在识别(匹配)阶段,用所有的码本对输入测试序列进行编码,并计算各自的总平均量化失真:
(1)
其中,j表示未知说话人X中第j(j=1,2,…,T)帧的特征向量,Bmi表示第i个说话人的第m个码字矢量,共有M个码字,d((Xj,Bmi))为待测矢量Xj和码本矢量Bmi之间的距离。
然后进行比较,以最小失真的参考模式作为判决对象,即满足Di最小的那个码本所对应的人为系统辨认的结果。
2 采用加权失真测度对基本VQ识别模型的改进
在LBG算法中,失真测度常采用欧氏距离:
(2)
矢量量化失真测度采用的欧氏距离中,特征矢量的各个分量是等权重的,数据的各维通道参数的分布情况在距离度量中没有得到反应,直接影响到基于欧氏距离测度的VQ话者模型的识别性能。为此,本文分别提出了基于方差和基于标准差的加权失真测度。
2.1 基于标准差和方差的加权失真测度
基于标准差的加权失真测度[3]实际上是一种加权的欧氏距离。每个话者均有自己的权值矩阵,其中第i个说话人的矩阵为:
(3)
第i个说话人的权值矩阵为:
(4)
然后得到针对此特征参数的权值:(5)
相应的基于标准差的加权欧氏距离失真测度公式为:
(6)
其中,M为码字的大小,N为说话人个数,rik为第i说话人第个k道参数的平均值,Xj为待识别的第j个特征矢量,K为参数矢量的总维数。
基于方差的加权失真测度[4]只是在计算权值时与基于标准差的加权失真测度不同。其中第i个说话人的方差矩阵为:
(7)
第i个说话人的权值矩阵为:(8)
然后依次代入公式(5),(6)即得到基于方差的加权欧氏距离失真测度公式。
2.2 改进的VQ识别模型的实现
本文根据不同说话人所形成码书的不同分布情况,设计了基于方差和基于标准差的加权失真测度VQ(Weighted Distortion Measure VQ,WDMVQ)。图1为WDMVQ识别方法的框图。
图1 加权失真测度的VQ识别模型
图1给出了说话人辨认的流程。采用WDMVQ的识别方法与基本的VQ识别方法相似,所不同的是:
1)在训练阶段,在对每个说话人形成码书后,需根据公式(3)(4)(5)(7)(8)计算出不同说话人基于标准差(方差)的各分量权值;
2)在识别阶段,进行匹配时,采用公式(6)来计算加权欧氏距离。
3 实验结果及讨论
本实验系统数据取自20个人的实验环境,对于文本无关的说话人识别,每人随意录音60秒,根据需要分割成不同长度分别用于训练和测试。特征参数采用16阶的MFCC参数,取帧长20ms(160点),帧移10ms(80点)。码书大小为32。窗函数为Hamming窗。表1为MFCC参数的各维分量的权值。
根据基于方差和基于标准差的加权失真测度算法得到的系统的识别率如表2所示。
从表2中可以得到如下结论:
1)随着时间的增加,系统的识别率提高;
训练时间越长,提取的码本就越能精确地反映说话人的个性特征,因此系统的识别率越高。当训练超过30s时,能达到理想的识别效果。
2)采用MFCC为特征参数时,基于标准差WDMVQ的和基于方差的WDMVQ性能优于传统的VQ。这是因为WDMVQ针对不同分布的各维参数对系统识别性能的不同贡献,根据标准差(方差)计算出权值,使识别率得到提高。
可见,在文本无关的说话人识别系统中,采用MFCC作为特征参数时,基于标准差的WDMVQ和基于方差的WDMVQ都能明显提高系统的识别率。
参考文献:
[1] 江太辉.基于VQ的说话人识别算法与实验[J].计算机工程与应用,2004(09):77-79.
[2] Pan J S,Lu Z M,Sun S H. An efficient encoding algorithm for vector quantization based on subvector technique. IEEE TRANSACTIONS ON IMAGE PROCESSING,2003,12(3):265-270.
[3] 赵鸿滨,卢潇,马丽华.基于加权VQ的说话人识别中权值产生方法的研究[J].通信技术,2008,(02):73-75.
[4] 林强,裘雪红.基于方差归一化失真测度的语音识别[J].电子科技,2007(08):38-41.
[5] 刘雅琴,杜海明.基于矢量量化的说话人识别[J].洛阳师范学院学报,2005(05):75-77.
[6] Zhang B, Matsoukas S. MinimumPhoneme Error Based Het-eroscedastic Linear Discriminant Analysis for Speech Recognition[M].in Proc.ICASSP,2005.
[7] Fan N p , Enhance J R. VQ-Based Algorthms for Speech Independent Speaker Identification[M],AVBPA,2003:470-477.
关键词: 说话人识别;矢量量化;标准差;方差
中图分类号:TP391文献标识码:A文章编号:1009-3044(2008)35-2228-02
A Kind of Speaker Recognition Techonlogy Based on Weighted Vector Quantization
LI Na, CUI Lian-yan, LI Lan-lan
(Liaoning University of Technology, School of Electronics and Informatics Engineering, Jinzhou 121000, China)
Abstract: This article researches the effect of weighted distortion measure to recognition rate in the way of VQ speaker recognition. It uses dispersion degree of the characteristic parameter to ensure the value of weight, and advances weighted distortion measure based on standard deviation and variance. The experiment shows that the two method can increase the correct rate of speaker recognition using “MFCC” as characteristic parameter.
Key words: speaker recognition; vector quantization; standard deviation; variance
基于VQ的说话人识别模型,与其他模型(如GMM)相比具有计算简单,实时性强的特点,因而得到广泛的应用。但它的识别率较低,为了提高识别率,人们对基本的VQ方法进行了各种各样的改进,其中包括两种途径:一种是设计一个加权的距离函数,如IHM和PNDM方法;另一种是研究说话者之间的语音特点,从而设计有区分能力的权值,如GVQ方法。本文就第二种方法进行了研究,分别提出了基于方差和基于标准差的加权失真测度,并对这两种失真测度的性能进行了实验验证。
1 基本的VQ识别模型
基于VQ[1]的说话人识别系统,矢量量化起着双重作用。在训练阶段,从讲话者的若干训练样本中提取出特征参数,通过LBG算法[2]生成用户的VQ模板即码本,使矢量量化码本与说话人一一对应。在识别(匹配)阶段,用所有的码本对输入测试序列进行编码,并计算各自的总平均量化失真:
其中,j表示未知说话人X中第j(j=1,2,…,T)帧的特征向量,Bmi表示第i个说话人的第m个码字矢量,共有M个码字,d((Xj,Bmi))为待测矢量Xj和码本矢量Bmi之间的距离。
然后进行比较,以最小失真的参考模式作为判决对象,即满足Di最小的那个码本所对应的人为系统辨认的结果。
2 采用加权失真测度对基本VQ识别模型的改进
在LBG算法中,失真测度常采用欧氏距离:
矢量量化失真测度采用的欧氏距离中,特征矢量的各个分量是等权重的,数据的各维通道参数的分布情况在距离度量中没有得到反应,直接影响到基于欧氏距离测度的VQ话者模型的识别性能。为此,本文分别提出了基于方差和基于标准差的加权失真测度。
2.1 基于标准差和方差的加权失真测度
基于标准差的加权失真测度[3]实际上是一种加权的欧氏距离。每个话者均有自己的权值矩阵,其中第i个说话人的矩阵为:
第i个说话人的权值矩阵为:
然后得到针对此特征参数的权值:
相应的基于标准差的加权欧氏距离失真测度公式为:
其中,M为码字的大小,N为说话人个数,rik为第i说话人第个k道参数的平均值,Xj为待识别的第j个特征矢量,K为参数矢量的总维数。
基于方差的加权失真测度[4]只是在计算权值时与基于标准差的加权失真测度不同。其中第i个说话人的方差矩阵为:
第i个说话人的权值矩阵为:
然后依次代入公式(5),(6)即得到基于方差的加权欧氏距离失真测度公式。
2.2 改进的VQ识别模型的实现
本文根据不同说话人所形成码书的不同分布情况,设计了基于方差和基于标准差的加权失真测度VQ(Weighted Distortion Measure VQ,WDMVQ)。图1为WDMVQ识别方法的框图。
图1 加权失真测度的VQ识别模型
图1给出了说话人辨认的流程。采用WDMVQ的识别方法与基本的VQ识别方法相似,所不同的是:
1)在训练阶段,在对每个说话人形成码书后,需根据公式(3)(4)(5)(7)(8)计算出不同说话人基于标准差(方差)的各分量权值;
2)在识别阶段,进行匹配时,采用公式(6)来计算加权欧氏距离。
3 实验结果及讨论
本实验系统数据取自20个人的实验环境,对于文本无关的说话人识别,每人随意录音60秒,根据需要分割成不同长度分别用于训练和测试。特征参数采用16阶的MFCC参数,取帧长20ms(160点),帧移10ms(80点)。码书大小为32。窗函数为Hamming窗。表1为MFCC参数的各维分量的权值。
根据基于方差和基于标准差的加权失真测度算法得到的系统的识别率如表2所示。
从表2中可以得到如下结论:
1)随着时间的增加,系统的识别率提高;
训练时间越长,提取的码本就越能精确地反映说话人的个性特征,因此系统的识别率越高。当训练超过30s时,能达到理想的识别效果。
2)采用MFCC为特征参数时,基于标准差WDMVQ的和基于方差的WDMVQ性能优于传统的VQ。这是因为WDMVQ针对不同分布的各维参数对系统识别性能的不同贡献,根据标准差(方差)计算出权值,使识别率得到提高。
可见,在文本无关的说话人识别系统中,采用MFCC作为特征参数时,基于标准差的WDMVQ和基于方差的WDMVQ都能明显提高系统的识别率。
参考文献:
[1] 江太辉.基于VQ的说话人识别算法与实验[J].计算机工程与应用,2004(09):77-79.
[2] Pan J S,Lu Z M,Sun S H. An efficient encoding algorithm for vector quantization based on subvector technique. IEEE TRANSACTIONS ON IMAGE PROCESSING,2003,12(3):265-270.
[3] 赵鸿滨,卢潇,马丽华.基于加权VQ的说话人识别中权值产生方法的研究[J].通信技术,2008,(02):73-75.
[4] 林强,裘雪红.基于方差归一化失真测度的语音识别[J].电子科技,2007(08):38-41.
[5] 刘雅琴,杜海明.基于矢量量化的说话人识别[J].洛阳师范学院学报,2005(05):75-77.
[6] Zhang B, Matsoukas S. MinimumPhoneme Error Based Het-eroscedastic Linear Discriminant Analysis for Speech Recognition[M].in Proc.ICASSP,2005.
[7] Fan N p , Enhance J R. VQ-Based Algorthms for Speech Independent Speaker Identification[M],AVBPA,2003:470-477.