基于音素的说话人语音转换技术

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:gzqeedaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人语音转换技术是语音信号处理领域中的前沿分支。它通过对一个说话人(源说话人)的语音信号进行修改,在保留其所表达的语义信息的前提下,使修改后的语音信号听起来像另外一个说话人(目的说话人)所说的。说话人语音转换技术对语音分析、语音合成、语音识别及说话人识别等领域都有重大的促进意义。 线性预测是语音处理中广泛应用的分析合成模型。它具有参数计算容易,合成语音质量高等特点。对于说话人语音转换技术而言,其另一显著优势在于它是基于语音产生的嗓音源一声道模型建立的,直接体现了说话人的特征。本文从线性预测所体现的说话人特征着手,通过基音同步的方法对语音进行分析合成,研究了基于该模型的说话人语音转换技术。 在基于音素的说话人语音转换技术中,训练及测试语句都需要进行音素的切分。本文通过提取语音的Mel倒谱系数,采用动态时间归整算法,实现了单音素级的语音切分。 说话人语音转换的关键技术之一是从语音中提取可分析合成的说话人特征。本文将语音中所体现的说话人的生理特征进行转换,而保留源说话人语音的语速、韵律和语义信息。在线性预测分析中,时变的全极点滤波器体现了说话人的声道响应,通过逆滤波得到的嗓音源激励可用LF微分声门波信号表示。本文用线性预测参数表征说话人的声道特征,用LF模型参数表征说话人的声门特征,解决了大多数说话人语音转换方法中仅用基音频率表征浊音音素的说话人嗓音源特征的瓶颈问题。 本文的核心在于转换模型的设计,比较了两种进行参数转换的算法。算法一基于高斯混合模型,通过转换函数,将源说话人的特征参数修改为目的说话人的特征参数。算法二基于隐马可夫模型,通过状态匹配,将源说话人的特征参数映射为目的说话人的特征参数。高斯混合模型具有快速准确拟合参数的特点,隐马可夫模型广泛应用于表示短时平稳过程。本文对这两种算法进行横向比较,指出不存在绝对优异的算法,要在算法性能和实现复杂度两者间折衷考虑。 本文的另一大贡献在于给出了测试说话人语音转换技术的客观与主观方法。 本文通过计算信噪比衡量分析合成的性能,通过比较类内与类间距离衡量统计模型的聚类特性。对于转换后的语音,本文设计了两种听觉测试实验,分别评价语音质量及相似性。
其他文献
视频通信以其直观生动等特点在多媒体通信中占有非常重要的地位,而随着多媒体技术的发展,视频压缩编码技术日益成为计算机通信领域中倍受关注的问题。压缩效率是在码率、图像质
本文通过对荣华二采区10
期刊
在过去几十年里,人们一直在不断地寻找获得高分辨率数字图像的途径。今天,由于集成电路技术的发展,使得数字图像的分辨率越来越高。但是在某些情况下,由于成本、技术或者其它原因
近年来,将内容缓存到网络边缘侧逐步成为移动网络中一种减少系统传输代价和提升用户体验的有效方式。随着移动网络的不断发展,我们可以利用网络架构优势更进一步地提升移动网络