论文部分内容阅读
随着语音处理技术和IP网络技术的飞速发展,基于IP网络的说话人识别技术已成为将语音与IP网络融合的一种重要应用.该技术可靠性高,操作简便,易被用户接受,在网络认证等方面有着相当广泛的应用前景.基于IP网络的说话人识别系统的正确识别率会受到录音环境、背景噪声、传输信道及说话人说话方式等因素的影响.提高系统的鲁棒性,是该文的主要目标.该文对如何提高系统客户端、传输过程中及服务器端鲁棒性做了如下工作:分析了Mel倒谱各阶系数的抗噪性能,得到高阶系数抗噪性较差而低阶系数抗噪性较好的结论以便于对它们进行合理编码来突出抗噪性强的系数对识别系统的贡献;采取一种对Mel倒谱提取的幅度加权算法,使得系统的性能在SNR较低时得到较大的改善;提出只取每字前后N帧进行识别的既可提高鲁棒性又能节省计算量的方法;估测带噪语音的SNR,选择SNR大于某个门限值的语音段来提取参数,不仅可以提高系统性能还减少了流经网络的数据量;针对IP网络中数据丢失这一现象,采用交织及丢失数据替代技术对丢失的语音数据进行补偿以提高系统的鲁棒性;研究了干净和带噪语音测试时间长短对系统识别率的影响,得到系统识别率基本随测试时间增加而上升但在测试时间大于1.1秒时,带噪语音的识别率几乎不再随测试时间变化的结论;采用将注册用户分为男女两类,在识别时先判断测试音所属的类别再在该类中最终判断的基于说话人分类的识别方法,并用实验验证该方法确实改善了系统的性能.