论文部分内容阅读
本文所研究的说话人分割与聚类技术是语音识别领域中一个较为新兴的研究方向。该技术主要是针对含有多个说话人的对话型语音,例如含有两个人的电话录音、包含多个人的会议录音、电视新闻节目等。按照说话人的不同将对话型语音进行分割,而后将相同说话人的语音片段聚类在一起,实现说话人识别这样一个任务,即“whospokewhen”。它是语音技术走向实用化的一个重要环节,是说话人识别技术、说话人检索技术以及多门其他语音技术发展所共同要求的一个新兴研究重点。 本文探讨了说话人分割和说话人聚类的理论和实现技术,实现了一个说话人分割与聚类系统,并在此基础上进行了一些相关实验。主要研究内容包括: 通过对目前说话人分割技术中使用得最广泛的基于贝叶斯信息准则(Bayesian Information Criterion)的分割方法进行理论分析和实验,发现原始的基于BIC的说话人分割方法其计算量过大。针对这一情况本文提出了一种基于预分割的说话人分割方法,通过先预分割再对分割点验证的方法,以少量的性能损失为代价,将说话人分割过程中的判别次数(计算ΔBIC的次数)由(n2)O次减少到(n)O次。 对于说话人聚类,由于事先无法确知说话人数目,本文使用了与分类数无关的层次聚类法。在样本间相似性度量方面,采用了高斯混合模型(GMM)间的距离来量化样本之间的相似性,并比较了两种不同的GMM模型间的距离在聚类效果上的差异,以及GMM混合数对聚类性能的影响。并再次利用BIC准则推导出一个聚类停止准则。 此外,为了更好地从音频中得到纯语音信号,在特征提取阶段使用了一种利用动态能量阈值以及平滑处理来去除静音帧的方法。