电话语音说话人分割与聚类研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:shuper
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和存储技术的发展,音频数据量呈现爆炸式的增长。面对如此海量数据,人们更加迫切的希望能够从中准确快速地搜索到需要的信息,因而对相关语音技术的需求也与日俱增。说话人分割与聚类技术就是一项配合其他语音技术以满足这些需求的关键技术。   分割与聚类的过程中,由于缺乏先验信息,需要用有限的数据准确地表示语音段包含的说话人信息或建立类别模型,并使用有效的相似性度量方法比较语音段或者类别间的距离。这些都是说话人分割与聚类技术面临的困难和挑战。本论文在双人电话语音数据上,主要针对相似性度量方法、类别建模和语音段中说话人信息表示这三个方面展开了探索和研究。论文的主要工作和创新点如下:   第一,相似性度量方法的研究。针对基于贝叶斯信息准则(BIC)的基线系统在聚类时可用信息过少的问题,提出将相邻语音段间静音长度融合到基于BIC准则的相似性度量中,这样利用了静音长度与相邻语音段间说话人转移概率的关系,从而提高了相邻语音段间相似性度量的准确性。实验结果表明,这种融合方法对系统性能有一定的提升作用。   第二,类别建模的研究。对BIC基线系统进行了基于GMM-UBM MAP建模和基于因子分析建模这两个方面的改进。首先,针对基线系统中,单高斯不能描述复杂的特征分布以及BIC准则度量的类别距离受到语音数据量影响这两个问题,采用了基于交叉似然比(CLR)的两步聚类方法。该方法采用高斯混合-背景模型(GMM-UBM)最大后验估计(MAP)对类别建模,使用CLR作为相似性度量。然后,针对MAP估计存在估计参数过多的问题,将基于本征语音(EV)和基于全差异(TV)的两种因子分析技术应用于类别建模,获得比MAP估计更加准确的类别GMM模型。实验结果表明,这两方面的改进均能进一步提升系统性能。   第三,语音段中说话人信息表示的研究。针对目前性能最好的基于i-vector的系统,基于联合因子分析技术,提出了一种扩展的全差异因子分析模型,对说话人类内短时语音段差异进行了显式建模,从而使得提取的i-vector能够更加准确地表示语音段包含的说话人信息。实验结果表明,本文提出的这种差异补偿方法能大大提升系统的性能。   此外,提出了一种基于图形处理单元(GPU)的GMM模型并行快速训练方法,该方法能够大幅度提升模型训练速度。话人分割与聚类系统中,GMM模型是基本模型,因此,这种基于GPU的GMM模型快速训练方法对提升整个系统的运算效率具有巨大的应用价值。
其他文献
近年来,随着无线通信应用的多样化,频谱资源越来越紧缺。为了缓解TD-LTE系统的频谱短缺问题,可利用认知无线电技术使TD-LTE系统与UHF(Ultra High Frequency)频段的广播电视系
随着移动互联时代的到来,用户物理空间行为和网络空间角色发生巨大变化。首先,在物理空间由静到动:用户的上网习惯由有线固定向无线移动转变,如何保证无线移动环境下良好的视频体
3GPP LTE Release-11中将C-RAN(Cloud-Radio Access Network)架构作为下一代无线接入网演进的标准之一。它融合了集中式处理,云计算,分布式天线等技术,在功率节省,系统覆盖,干扰抑制
压缩感知理论是近几年新兴起来的一门理论,它在保证信息不损失的情况下,采用远低于奈奎斯特采样定理所要求的采样频率对信号进行采样,并且对信号进行精确重构,成为图像处理领
随着视频监控系统规模的不断扩大,单纯地使用人力实现对大量监控点的在线监视是不现实的,因此,具有自主分析能力的智能视频监控系统是视频监控系统未来发展的趋势。此外,国内外许
对流层散射信道由于其通信距离远、传输容量大,而且具有较好的保密性、方向性以及抗干扰能力强等特点而备受军事通信及应急通信领域关注。不过对流层散射信道同时也是个严重
正交频分复用(OFDM,Orthogonal Frequency Division Multiplexing)技术由于具有较高的频谱利用率和较强的抗干扰能力,得到了广泛的关注,并已渐渐成为下一代无线通信系统的核
图像已广泛应用到现代社会的各个领域,而由于数字成像设备自身限制以及成像过程受到外部环境的影响,导致图像中信息的丢失,即获得的是降质图像。其中,由模糊原因导致的图像降
随着社会经济的发展和计算机视觉技术的普及,基于视觉的目标检测与跟踪已成为研究热点。无论是军用导弹跟踪技术,还是民用视频监控系统,它们都与计算机视觉技术相关。本文针