论文部分内容阅读
语言是人类所特有的也是最重要的交际手段,随着科技的发展,在现代社会,电话逐渐成为人们日常交流和感情沟通的重要手段,电话语音的识别研究也就相应变得越发重要起来。
电话语音/铃声分割在电话语音识别中占有重要地位。本文所进行的研究首先判断电话语音中是否包含有具体的通话信息,如果仅仅是电话铃声,则直接将其略去,如果语音中同时还包含有对话部分,则再将电话语音中的铃声和对话部分分割开。这样在进行电话语音识别时,可以省去对大量无意义的电话铃声的处理,只对通话过程中的人声进行识别,从而降低了语音处理的难度,这对于电话语音的说话人识别和确认有着重要的意义,在安全、信息检索等领域都有广泛的应用。
本文使用基于不同核函数的支持向量机作为电话语音/铃声分割的基本方法,采用的语音材料是包含有语音/铃声的固定电话录音。实验提取语音样本的Mel倒谱系数作为特征参数,用以对支持向量机进行训练和识别。
本文提出了一种基于支持向量机的电话语音/铃声分割方法,并重点介绍了一种对特征参数进行归一化处理的技术,而且通过语音样本进行了实验。实验结果表明,对特征参数作归一化处理之后,识别率平均提高了25.77%,这说明本文提出的特征参数归一化方法能显著的提高识别率,是非常有效的,同时,对基于不同核函数的支持向量机的对比实验表明,基于径向基核函数的支持向量机对于电话语音/铃声分割问题具有最好的性能。