论文部分内容阅读
说话人识别技术是生物认证技术的一个范畴,由于语音采集容易、经济性高等优点,使得说话人识别成为生物识别领域上研究的一个焦点。本论文首先讨论了端点检测以及特征提取的方法,然后在VQ的基础上提出了加权FSVQ,并将其与SVM融合进行说话人识别,取得了一定的研究成果。
一些端点检测技术包括倒谱特征,信息熵,谱熵等对孤立词语音的端点检测都能达到很好的效果,但是说话人识别中用到的更多的是连续语音,实验结果显示,短时能量和过零率对连续语音的端点检测更为有效。这主要是因为短时能量和过零率综合考虑了语音的能量和频率。
矢量量化作为一种比较常用的说话人识别方法,虽然在编码率较低的情况下,其识别率并不高,但是其训练速度快。因此,本论文为了提高矢量量化在低编码率情况下的识别率,提出了加权FSVQ。加权FSVQ认为任一时刻系统都处,于一个特定的状态,当前系统的状态是由前一时刻的语音帧决定的。由于考虑到了语音信号帧间的关联性,使得加权FSVQ相比传统VQ有着更高的识别率。实验证明该方法相对于传统矢量量化在识别率上有一定的提高,特别是在码字较少时(少于8),识别率有lO%以上的提高。
对加权FSVQ的加权系数进行探讨是本论文的另外一个重点,对比分析了按贡献率加权、按量化精度加权、按贡献率和量化精度结合加权以及未加权四种加权策略,实验结果证明按贡献率和量化精度结合加权可使加权FSVQ可达到最高识别率。
加权FSVQ继承了VQ在训练速度上的优点,这主要体现在当编码率较低时,加权FSVQ能够快速实现对大样本的训练,而这一点正是SVM所欠缺的。相比加权FSVQ,SVM的主要优势在于对小样本的识别精度上,SVM能够对小样本实现高精度的快速识别。针对两类方法存在的缺陷,为了有效地提高说话人识别的识别率,将二者进行融合,并最大可能地发挥二者的优势。基于加权FSVQ和SVM融合的说话人识别方法采用的是先选定候选人,后确定的原则。实验数据显示:采用加权FSVQ作为第一种语音模型,SVM作为第二种语音模型的级联模式进行融合,在将20人作为候选人的情况下,能够将单一识别率由83.721%提高到94.080%。