论文部分内容阅读
随着信息技术和存储技术的发展,音频数据量呈现爆炸式的增长。面对如此海量数据,人们更加迫切的希望能够从中准确快速地搜索到需要的信息,因而对相关语音技术的需求也与日俱增。说话人分割与聚类技术就是一项配合其他语音技术以满足这些需求的关键技术。
分割与聚类的过程中,由于缺乏先验信息,需要用有限的数据准确地表示语音段包含的说话人信息或建立类别模型,并使用有效的相似性度量方法比较语音段或者类别间的距离。这些都是说话人分割与聚类技术面临的困难和挑战。本论文在双人电话语音数据上,主要针对相似性度量方法、类别建模和语音段中说话人信息表示这三个方面展开了探索和研究。论文的主要工作和创新点如下:
第一,相似性度量方法的研究。针对基于贝叶斯信息准则(BIC)的基线系统在聚类时可用信息过少的问题,提出将相邻语音段间静音长度融合到基于BIC准则的相似性度量中,这样利用了静音长度与相邻语音段间说话人转移概率的关系,从而提高了相邻语音段间相似性度量的准确性。实验结果表明,这种融合方法对系统性能有一定的提升作用。
第二,类别建模的研究。对BIC基线系统进行了基于GMM-UBM MAP建模和基于因子分析建模这两个方面的改进。首先,针对基线系统中,单高斯不能描述复杂的特征分布以及BIC准则度量的类别距离受到语音数据量影响这两个问题,采用了基于交叉似然比(CLR)的两步聚类方法。该方法采用高斯混合-背景模型(GMM-UBM)最大后验估计(MAP)对类别建模,使用CLR作为相似性度量。然后,针对MAP估计存在估计参数过多的问题,将基于本征语音(EV)和基于全差异(TV)的两种因子分析技术应用于类别建模,获得比MAP估计更加准确的类别GMM模型。实验结果表明,这两方面的改进均能进一步提升系统性能。
第三,语音段中说话人信息表示的研究。针对目前性能最好的基于i-vector的系统,基于联合因子分析技术,提出了一种扩展的全差异因子分析模型,对说话人类内短时语音段差异进行了显式建模,从而使得提取的i-vector能够更加准确地表示语音段包含的说话人信息。实验结果表明,本文提出的这种差异补偿方法能大大提升系统的性能。
此外,提出了一种基于图形处理单元(GPU)的GMM模型并行快速训练方法,该方法能够大幅度提升模型训练速度。话人分割与聚类系统中,GMM模型是基本模型,因此,这种基于GPU的GMM模型快速训练方法对提升整个系统的运算效率具有巨大的应用价值。